Обработка сгруппированных данных в потоке данных занимает больше времени - PullRequest
0 голосов
/ 08 июля 2020

Я использую apache beam sdk для написания кода. Здесь у меня есть коллекция PCollection, которая содержит большой объем данных по этим данным. Я применяю группу или создаю группу из этих данных. После того, как я сгруппировал данные, я применил Pardo к ним и внутри processElement, повторяя каждую строку таблицы (также внутри нее есть l oop), обрабатывая ее и создавая окончательную строку таблицы, а затем записывая ее в biqquery.

Данные размером около 42 КБ загружаются в таблицу за 1 час. Это наименьший объем данных, при увеличении данных он будет d ie.

Кто-нибудь может мне помочь или дать мне несколько хороших предложений.

Спасибо. !!!

введите описание изображения здесь

...