Я использую apache beam sdk для написания кода. Здесь у меня есть коллекция PCollection, которая содержит большой объем данных по этим данным. Я применяю группу или создаю группу из этих данных. После того, как я сгруппировал данные, я применил Pardo к ним и внутри processElement, повторяя каждую строку таблицы (также внутри нее есть l oop), обрабатывая ее и создавая окончательную строку таблицы, а затем записывая ее в biqquery.
Данные размером около 42 КБ загружаются в таблицу за 1 час. Это наименьший объем данных, при увеличении данных он будет d ie.
Кто-нибудь может мне помочь или дать мне несколько хороших предложений.
Спасибо. !!!
введите описание изображения здесь