Мой проект работает Python 2,7 (да, я знаю ...) с Apache Beam 2.19 в Google Dataflow. Мы подключаемся к BigQuery тем же способом, который указан в руководстве Apache Beam:
p | 'Get data from BigQuery' >> beam.io.Read(beam.io.BigQuerySource(
query=get_query(limit),
use_standard_sql=True)))
Однако шаг чтения этого конвейера невероятно медленный - скорее всего, из-за чтения. Avro-файлы. Похоже, что fastavro
на самом деле не используется. AFAIK, вам нужно явно установить флаг use_fastavro
при работе на Python <3.7. Это даже возможно с этой настройкой? Или мне нужно будет сначала вручную экспортировать в GCS? </p>