возможно ли в Beam / Dataflow создать пиплейн с помощью итератора?
Я всегда использовал списки предметов.
Вариант использования:
- курсор pyodbc после выполнения огромного SQL-запроса "select * from...
" (около 35 миллионов строк).
Использование pandas.to_gbq
(с кусками) слишком медленное, как и другие решения, которые я нашел здесь .
Я думал, что Beam, поскольку он, естественно, параллелен, но я не знаю, как обращаться с итератором вместо списка.
Есть предложения?