30 миллионов строк CSV в месяц, требующих добавления полей в каждой строке на основе поиска из отдельного файла - PullRequest
0 голосов
/ 21 сентября 2018

У меня 30 миллионов строк CSV, которые создаются каждый месяц, я пытаюсь добавить 2 поля, которые заполняются на основе поиска из отдельного файла, и позволить ему работать без присмотра.Я пытаюсь выбрать технологию прямо сейчас - я бы предпочел использовать язык сценариев, который можно запускать из командной строки (Windows) и что-то бесплатное в идеале, но открытое для предложений.База данных SQL на самом деле не вариант.

1 Ответ

0 голосов
/ 22 сентября 2018

Взгляните на интеграцию данных Pentaho.Он основан на Java, многопоточный и может справляться с большими CSV-файлами со скоростью более 100 тыс. Строк в секунду.

Вы можете вызывать его из командной строки в Linux или Windows, а также можете параметризовать задания и преобразования, чтобы получить параметры командной строки для таких вещей, как пути к файлам, подключения к БД и т. Д.

Есть платная версия Enterprise Edition, но также и бесплатная версия с открытым исходным кодом для сообщества.

См. Community.pentaho.com.

Осторожно: крутая кривая обучения.Кричите, если вам нужны дополнительные указатели.

...