Для огромного количества огромных CSV-файлов (более 100 миллионов строк) из разных источников мне нужен быстрый фрагмент или библиотека, чтобы автоматически угадать формат даты и преобразовать его в разбитое время или метку времени Unix. После успешного угадывания фрагмент должен иметь возможность проверять последующие вхождения поля даты на достоверность, поскольку существует вероятность того, что формат даты изменяется по всему файлу.
Тестовый набор форматов даты должен быть переменным, но компилировать оптимальное дерево решений или что-то из ряда заданных форматов даты вполне нормально.
Я пришел к выводу, что ничего подобного не существует, но все же я должен провести «исследование рынка», поэтому мой вопрос.
Моей первой попыткой было подражать getdate () для 23 различных форматов дат, которые я наблюдал до сих пор, и заменить анализаторы чисел оптимизированными версиями с учетом характеристик, специфичных для даты (без '4' до '9' в часть дня 10, номера «3» - «9» части месяца и т. д.)
Кто-нибудь сталкивался с подобной проблемой или даже создавал подобный код?