Apache Воздушный поток Архитектурная установка - PullRequest
0 голосов
/ 09 февраля 2020

Я изучаю, как Apache Airflow работает, но я все еще не нашел некоторую информацию о том, как должна быть хорошая архитектурная схема с точки зрения:

  • Нужна ли отдельная машина для запустить службу Airflow и каковы будут ее требования с точки зрения емкости / ресурсов?
  • Где именно выполняются запланированные задания и если есть определенные c зависимости, как они управляются? Например, в настройке Apache Spark Cluster рабочие узлы будут идентичны, и с помощью сценариев инициализации вы сможете установить все необходимые пакеты python. Как это обрабатывается, если задание выполняется через Airflow?
  • Если я хочу выполнить очень сложный процесс python, который в настоящее время выполняется через образ docker, как я могу структурировать свой проект? Должен ли Airflow просто активировать виртуальную машину с docker? Должен ли я пропустить docker и запустить вместо него Python Operator?

Я не нашел ни одного руководства, которое бы решало эти вопросы более высокого уровня и лучшие практики.

Любые отзывы приветствуются. Ура! * * 1013

...