Какой удобный способ развертывания и управления выполнением конвейера Python SDK Apache Beam для облака Google Dataflow - PullRequest
0 голосов
/ 27 января 2019

После того, как конвейер Apache Beam был спроектирован и протестирован в облачном потоке данных Google с использованием Python SDK и DataflowRunner, как удобно иметь в облаке Google и управлять его выполнением?

Какой удобный способ развертывания и управления выполнением конвейера Python SDK Apache Beam для облачного потока данных Google?

Должен ли он быть каким-либо образом упакован?Загружен в хранилище Google?Создать шаблон потока данных?Как можно запланировать его выполнение помимо выполнения разработчиком его из среды разработки?

Обновление

Желательно без сторонних инструментов или необходимости в дополнительных инструментах управления / инфраструктуре помимоОблако Google и Dataflow в частности.

Ответы [ 2 ]

0 голосов
/ 28 января 2019

Интуитивно можно ожидать, что раздел « развертывание конвейера » в Руководствах документации Dataflow будет охватывать это.Но вы найдете объяснение тому, что только 8 разделов ниже в разделе « обзор шаблонов ».

В соответствии с этим разделом:

Шаблоны облачных потоков данных вводятновый рабочий процесс разработки и исполнения, который отличается от традиционного рабочего процесса исполнения заданий.Рабочий процесс шаблона отделяет этап разработки от этапов подготовки и выполнения.

Обычно вы не развертываете и не выполняете конвейер потока данных из Google Cloud.Но если вам нужно поделиться работой конвейера с нетехническими членами вашего облака или просто хотите запустить его , не завися от среды разработки или сторонних инструментов , тогда вам нужны шаблоны потока данных.

После того, как конвейер разработан и протестирован, вы можете создать из него шаблон задания Dataflow.

Обратите внимание:

Для создания шаблонов с помощью Cloud Dataflow SDK 2.xдля Python у вас должна быть версия 2.0.0 или выше.

Вам нужно будет выполнить свой конвейер, используя DataflowRunner с параметрами конвейера, которые будут генерировать шаблон в хранилище Google Cloud, а не запускать его..

Для получения более подробной информации см. раздел создания документации раздел документации и для запуска его из шаблона см. выполнение шаблонов раздел.

0 голосов
/ 27 января 2019

Я бы сказал, что наиболее удобный способ - использовать Воздушный поток .Это позволяет вам создавать, планировать и контролировать рабочие процессы. Оператор потока данных может запустить ваш спроектированный конвейер данных.Воздушный поток может быть запущен либо на маленькой виртуальной машине, либо с помощью Cloud Composer , который является инструментом Google Cloud Platform.

Есть и другие варианты автоматизации вашего рабочего процесса, например Дженкинс , Азкабан , Rundeck , или даже простой кронхоб (которым я не рекомендую пользоваться).Возможно, вы захотите взглянуть и на эти опции, но Airflow, вероятно, соответствует вашим потребностям.

...