Question

Я использую Apache Beam для чтения данных из хранилища данных Google Cloud с помощью собственных io.gcp.datastore.v1.datastoreio API-интерфейсов Python от Beam.

Я запускаю свой конвейер в облачном потоке данных Google Cloud.

Я хочучтобы мои работники не были перегружены данными.

Как я могу читать данные партиями или использовать какой-то другой механизм, чтобы мои работники не извлекали огромное количество данных за один раз?

Andrew Pilloud · Answer 1 · 17 апреля 2019

Dataflow автоматически сделает это за вас. По умолчанию datastoreio разбивает ваши файлы на блоки по 64 МБ. Если вы хотите разбить их на более мелкие части, используйте параметр num_splits в инициализаторе, чтобы указать, на сколько частей разбить каждый файл.

Чтение записей в пакетах из Google Cloud Datastore с использованием Apache Beam

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Чтение записей в пакетах из Google Cloud Datastore с использованием Apache Beam

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы