Чтение записей в пакетах из Google Cloud Datastore с использованием Apache Beam - PullRequest
0 голосов
/ 11 апреля 2019

Я использую Apache Beam для чтения данных из хранилища данных Google Cloud с помощью собственных io.gcp.datastore.v1.datastoreio API-интерфейсов Python от Beam.

Я запускаю свой конвейер в облачном потоке данных Google Cloud.

Я хочучтобы мои работники не были перегружены данными.

Как я могу читать данные партиями или использовать какой-то другой механизм, чтобы мои работники не извлекали огромное количество данных за один раз?

1 Ответ

0 голосов
/ 17 апреля 2019

Dataflow автоматически сделает это за вас. По умолчанию datastoreio разбивает ваши файлы на блоки по 64 МБ. Если вы хотите разбить их на более мелкие части, используйте параметр num_splits в инициализаторе, чтобы указать, на сколько частей разбить каждый файл.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...