Что я должен сделать
Я пытаюсь манипулировать некоторыми довольно большими объемами данных, хранящихся в файлах Excel (одна из рабочих книг содержит до 150 электронных таблиц). Результат этих манипуляций может привести к примерно 800 000 строк в таблице базы данных.
Проблема
Данные, хранящиеся в электронных таблицах, имеют непредсказуемый формат. Компания, создавшая эти таблицы, не имела фиксированного / документированного формата для экспорта этих файлов, и иногда появляются ошибочные данные. Например, большинство лет представлено как «2009», но есть случаи, когда год представлен как «20». Другой пример: данные в этих файлах не нормализованы, поэтому я использую разделители для разделения значений определенных ячеек. Иногда эти разделители меняются.
Есть такие вещи, которые я не мог предсказать, и я обнаружил их только после запуска уже развитой версии моей программы над довольно большой частью доступных данных.
Вопрос
Как можно проверить правильность программы в такой ситуации? Или, скорее, как получить довольно стабильную версию продукта, не проверяя все доступные данные?
Должен ли я использовать защитный подход и выдавать исключения всякий раз, когда возникает какая-то неожиданная проблема? Тогда основной цикл программы может их перехватить и зарегистрировать и продолжить с доступными данными? Это дало бы некоторые обработанные данные, но это означает, что на последующей итерации программы мне нужно будет проверять, что уже находится в базе данных из предыдущих итераций (что мне не очень нравится).
Каково ваше мнение? Как бы вы решили эту проблему?