Question

возможно ли в Beam / Dataflow создать пиплейн с помощью итератора? Я всегда использовал списки предметов.

Вариант использования: - курсор pyodbc после выполнения огромного SQL-запроса "select * from..." (около 35 миллионов строк).

Использование pandas.to_gbq (с кусками) слишком медленное, как и другие решения, которые я нашел здесь .

Я думал, что Beam, поскольку он, естественно, параллелен, но я не знаю, как обращаться с итератором вместо списка.

Есть предложения?

Apache Beam / Dataflow: создать конвейер из итератора (т.е. из набора результатов sql)

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.