Как быстро протестировать apache-beam на Google Dataflow Runner? - PullRequest
0 голосов
/ 19 июня 2019

Я написал поток (pub / sub) на python, который я тестировал локально с DirectRunner. Я хотел запустить его с помощью средства управления потоком данных, а затем открыл окно pandora: NameErrors, require, setup.py и т. Д. Проверить и исправить эти ошибки очень утомительно, поскольку требуется около 7 минут, прежде чем Dataflow начнет обрабатывать первые данные. Есть ли какой-нибудь вид удаленного бегуна (например, docker?), Который позволит мне выполнять итерации быстрее?

1 Ответ

0 голосов
/ 19 июня 2019

Apache Beam - это всего лишь пакет Python.Это ядро ​​потока данных.Мне не известны какие-либо инструменты автоматизации (средства проверки и т. Д.) Для Cloud Dataflow.

Процесс, который я использую, - это Python Virtualenv.Всякий раз, когда я устанавливаю другую зависимость, я обновляю файл needs.txt.У меня нет проблем с развертыванием заданий Dataflow таким способом.

Также было бы очень легко настроить контейнер Docker для локального тестирования перед загрузкой ваших файлов в Dataflow.Просто добавьте строку apache-beam==2.9.0 (измените для вашей версии) в файл needs.txt при сборке контейнера.

...