Я думаю, что лучшее, на что вы можете надеяться, это 80% автоматический, а это значит, что вы будете делать более 1000 лучших случаев вручную.Вам просто нужно быть умным в отношении данных, которые там есть.Прочитайте каждую строку и посчитайте запятые.Если это правильное количество, запишите его в новый файл.Если их слишком много, отправьте их обработчику исключений.
Начните с того, что вы абсолютно точно знаете о данных.Является ли первый столбец меткой времени?Если вы это знаете, вы можете перейти от «20 запятых, когда должно быть 18» к «19 запятым, когда должно быть 17».Я знаю, что это не совсем поднимает настроение, но это прогресс.Где-то там есть место, подобное названию растения?Может быть, вы можете составить список из хороших данных и искать его в плохих данных.Если в столбце 7 указано название растения, просмотрите список названий растений и посмотрите, существует ли одно из них.Если это так, подсчитайте запятые между этим и началом, а также между этим и концом (или другим хорошим местоположением запятой, которое вы установили).
Если у вас есть уникальные данные, вы можете выполнить регулярное выражение, чтобы найти их местоположениев строке и снова подсчитайте запятые до и после, чтобы увидеть, где это должно быть.Например, если у вас есть широта / долгота или номер детали в формате 99A99-999.
Если вы можете опубликовать пять или десять строк хороших данных, возможно, кто-то может предложить более конкретные способы идентификации столбцов иих местоположения.
Удачи.