Я изучаю, как Apache Airflow работает, но я все еще не нашел некоторую информацию о том, как должна быть хорошая архитектурная схема с точки зрения:
- Нужна ли отдельная машина для запустить службу Airflow и каковы будут ее требования с точки зрения емкости / ресурсов?
- Где именно выполняются запланированные задания и если есть определенные c зависимости, как они управляются? Например, в настройке Apache Spark Cluster рабочие узлы будут идентичны, и с помощью сценариев инициализации вы сможете установить все необходимые пакеты python. Как это обрабатывается, если задание выполняется через Airflow?
- Если я хочу выполнить очень сложный процесс python, который в настоящее время выполняется через образ docker, как я могу структурировать свой проект? Должен ли Airflow просто активировать виртуальную машину с docker? Должен ли я пропустить docker и запустить вместо него Python Operator?
Я не нашел ни одного руководства, которое бы решало эти вопросы более высокого уровня и лучшие практики.
Любые отзывы приветствуются. Ура! * * 1013