Конвертировать поток в мини-пакет для загрузки в BigQuery - PullRequest
0 голосов
/ 04 июля 2019

Я бы хотел построить следующий конвейер:

pub/sub --> dataflow --> bigquery

Данные потоковые, но я бы хотел избежать потоковой передачи данных непосредственно в BigQuery, поэтому я надеялся собрать небольшие куски в машине потока данных и затем записать их в BQ в качестве задания загрузки, когда они достигнут определенного размера. /time.

Я не могу найти примеров того, как сделать это с помощью Python Apache Beam SDK - только Java.

1 Ответ

2 голосов
/ 06 июля 2019

Это работа в процессе.Метод FILE_LOADS доступен только для пакетных конвейеров (с флагом эксперимента use_beam_bq_sink он будет значением по умолчанию в future .

Однако для потоковых конвейеров, как видно из кода , будет выдано NotImplementedError с сообщением:

Загрузка файлов в BigQuery поддерживается только в пакетных конвейерах.

Существует открытый билет JIRA , где вы можете следить за ходом процесса.

...