В настоящее время я создаю нашу среду Python для Google Dataflow, используя официальный пример setup.py: https://github.com/apache/beam/blob/master/sdks/python/apache_beam/examples/complete/juliaset/setup.py
Проблемы с этим подходом:
- Проблемы совместимости ОС, которые я разрабатываю на Mac, и экземпляры Dataflow основаны на Ubuntu. Использовать setup.py здесь довольно болезненно, так как он не кажется подходящим инструментом для создания.
- DataflowRunner занимает около 20-25 минут, чтобы идентифицировать
Я думаю, что получение образа докера, отражающего среду потока данных, было бы хорошим решением этих проблем и запуска DirectRunner для образа.
Мне кажется, что шаблоны https://cloud.google.com/dataflow/docs/guides/templates/overview могут помочь в выполнении из разных сред, хотя я не думаю, что они обеспечивают достаточное понимание процесса сборки.
Я не уверен, где найти образ Docker, который я мог бы использовать для этого, или есть ли лучшие способы воспроизводимо создавать среды Dataflow Python?