Я только что посмотрел на спецификацию CUSCAR и думаю, что вы получите довольно уродливый код регулярного выражения для его анализа. Вы могли бы сойти с рук, если вы анализируете только часть этого. Вам нужно будет проверить скорость, поскольку вашим главным узким местом будет ввод / вывод.
Я сделал нечто подобное с файлами вендора, пришедшими из QWEST. Эти зверюшки были иерархическими текстовыми файлами. Разбор тех, кто сосал! В настоящее время я создаю и анализирую текстовые файлы от 4 до 50 миллионов строк каждый (каждый день).
Есть хороший фреймворк под названием FileHelpers Library . Эта структура поможет вам создать объектно-ориентированное представление записей (текстовые строки). У него даже есть хороший мастер, который поможет вам в создании этих объектов, представляющих записи. Он легко обрабатывает форматы мастер-деталей, разделителей и фиксированных форматов.