Question

Я бы хотел построить следующий конвейер:

pub/sub --> dataflow --> bigquery

Данные потоковые, но я бы хотел избежать потоковой передачи данных непосредственно в BigQuery, поэтому я надеялся собрать небольшие куски в машине потока данных и затем записать их в BQ в качестве задания загрузки, когда они достигнут определенного размера. /time.

Я не могу найти примеров того, как сделать это с помощью Python Apache Beam SDK - только Java.

Guillem Xercavins · Answer 1 · 06 июля 2019

Это работа в процессе.Метод FILE_LOADS доступен только для пакетных конвейеров (с флагом эксперимента use_beam_bq_sink он будет значением по умолчанию в future .

Однако для потоковых конвейеров, как видно из кода , будет выдано NotImplementedError с сообщением:

Загрузка файлов в BigQuery поддерживается только в пакетных конвейерах.

Существует открытый билет JIRA , где вы можете следить за ходом процесса.

Конвертировать поток в мини-пакет для загрузки в BigQuery

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Конвертировать поток в мини-пакет для загрузки в BigQuery

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы