У меня есть три файла, каждый из которых содержит около 300 тыс. Записей. Написали скрипт на python для обработки этих файлов с некоторой бизнес-логикой и смогли успешно создать выходной файл. Этот процесс завершается за 5 минут.
Я использую тот же сценарий для обработки файлов с большим объемом данных (все три входных файла содержат около 30 миллионов записей). Теперь обработка заняла часы и продолжалась очень долго.
Итак, я подумываю разбить файл на 100 маленьких кусочков на основе последних двух цифр уникального идентификатора и обработать его параллелями. Есть ли какие-либо пакеты конвейера данных, которые я мог бы использовать для этого?
Кстати, я запускаю этот процесс на моей машине с VDI.