Разделение файла на небольшие куски и обработка - PullRequest
0 голосов
/ 21 июня 2019

У меня есть три файла, каждый из которых содержит около 300 тыс. Записей. Написали скрипт на python для обработки этих файлов с некоторой бизнес-логикой и смогли успешно создать выходной файл. Этот процесс завершается за 5 минут.

Я использую тот же сценарий для обработки файлов с большим объемом данных (все три входных файла содержат около 30 миллионов записей). Теперь обработка заняла часы и продолжалась очень долго.

Итак, я подумываю разбить файл на 100 маленьких кусочков на основе последних двух цифр уникального идентификатора и обработать его параллелями. Есть ли какие-либо пакеты конвейера данных, которые я мог бы использовать для этого?

Кстати, я запускаю этот процесс на моей машине с VDI.

1 Ответ

0 голосов
/ 21 июня 2019

Я не уверен ни в каком API как таковом для функции. Но вы можете попробовать многопроцессорную и многопоточную обработку большого объема данных

...