Как получить воспроизводимые сборки среды Python Apache Beam Dataflow? - PullRequest
1 голос
/ 21 марта 2019

В настоящее время я создаю нашу среду Python для Google Dataflow, используя официальный пример setup.py: https://github.com/apache/beam/blob/master/sdks/python/apache_beam/examples/complete/juliaset/setup.py

Проблемы с этим подходом:

  1. Проблемы совместимости ОС, которые я разрабатываю на Mac, и экземпляры Dataflow основаны на Ubuntu. Использовать setup.py здесь довольно болезненно, так как он не кажется подходящим инструментом для создания.
  2. DataflowRunner занимает около 20-25 минут, чтобы идентифицировать

Я думаю, что получение образа докера, отражающего среду потока данных, было бы хорошим решением этих проблем и запуска DirectRunner для образа.

Мне кажется, что шаблоны https://cloud.google.com/dataflow/docs/guides/templates/overview могут помочь в выполнении из разных сред, хотя я не думаю, что они обеспечивают достаточное понимание процесса сборки.

Я не уверен, где найти образ Docker, который я мог бы использовать для этого, или есть ли лучшие способы воспроизводимо создавать среды Dataflow Python?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...