Обрабатывать огромные файлы и извлекать изображение изменений до и после Apache Beam - PullRequest
0 голосов
/ 21 июня 2019

У меня есть два огромных файла. Файл драйвера содержит 30 миллионов деталей доставки. Другой файл содержит подробности коррекции каждой пересылки. Основываясь на определенных критериях коррекции отгрузки, я должен построить детали коррекции изображения до и после.

Чтобы определить конкретные критерии исправления, мне нужно будет прочитать все предыдущие исправления для отгрузки, а затем мне нужно построить изображение до и после.

В настоящее время я построил эту логику в Python с помощью Pandas dataframe. Эта логика хорошо работает с записями 300 КБ, и для нее требуется менее 5 минут. Но если я захочу попробовать его для реального производственного файла с более чем 30 миллионами записей, он очень долго будет работать на моей машине с VDI.

Недавно мы получили облачную платформу Google, и команда разработчиков данных работает над этим облаком. Поэтому я думаю об использовании Apache Beam для этого требования. У меня очень ограниченные знания по Apache Beam. Могу ли я использовать этот инструмент, чтобы разбить этот файл с помощью конвейеров данных и запустить его с небольшими порциями сегментов. Это возможно? и это правильный вариант использования Apache Beam?

...