Возможно пакетное задание потока данных из хранилища данных в подпапку в Apache Beam Python SDK Возможно? - PullRequest
0 голосов
/ 20 февраля 2019

У меня есть тема Pub / Sub, которая будет периодически (обычно один раз в несколько дней или недель, но иногда чаще) получать пакеты сообщений.Я хотел бы запустить пакетное задание Dataflow, чтобы прочитать эти сообщения, выполнить некоторые преобразования, записать результат в Datastore, а затем прекратить работу.Когда выходит новая партия сообщений, я хочу начать новую работу.Я прочитал документы Apache Beam Python SDK и много вопросов SO, но все еще не уверен в некоторых вещах.

Может ли Pub / Sub IO считываться как часть работы без потоковой передачи?Может ли то же самое задание выполнить запись с помощью Datastore IO (которая в настоящее время не поддерживает потоковую передачу)?Можно ли предположить, что глобальное окно и триггер по умолчанию правильно сообщат заданию, когда прекратить чтение из Pub / Sub (когда пакет сообщений больше не записывается)?Или мне нужно добавить какую-то схему запуска / управления окнами, например, максимальное время или максимальное количество элементов?Будет ли этот триггер при срабатывании сказать глобальному окну закрыться и, следовательно, завершить работу?

1 Ответ

0 голосов
/ 23 апреля 2019

Редактировать: неправильно ответил, предполагая, что это было для Java Beam с потоком данных.

Извинения, я пропустил, что это было для Python.

По документации здесь добавлено в этот запрос извлечения , хранилище данных явно не поддерживается в потоковом режиме в Python.Существует несоответствие в документации, где утверждается, что поддерживается пакетный режим Python для Pub / Sub, тогда как связанный код говорит, что он поддерживается только в потоковых конвейерах.Я подал ошибку Jira , чтобы попытаться решить эту проблему.

Это, похоже, не поддерживаемый в настоящее время вариант использования для потока данных в потоковом режиме Python.Я бы посоветовал вам вместо этого использовать Java-версию Apache Beam, которая поддерживает потоковую запись в Datastore .

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...