как создавать тысячи задач каждый день, автоматически - PullRequest
2 голосов
/ 13 апреля 2019

Мы хотели бы использовать Apache Airflow для составления расписания Scrapy Python Spiders и некоторых других сценариев. У нас будут тысячи пауков, и их расписание может меняться изо дня в день, поэтому мы хотим иметь возможность создавать пакеты Airflow и планировать их всех один раз в день, автоматически из базы данных. Единственные примеры, которые я видел для airflow, используют сценарии python для записи файлов DAG.

Как лучше всего создавать файлы dag и автоматически планировать?

EDIT: Мне удалось найти решение, которое должно работать, используя файлы YAML https://codeascraft.com/2018/11/14/boundary-layer%E2%80%89-declarative-airflow-workflows/

1 Ответ

1 голос
/ 15 апреля 2019

Воздушный поток может использоваться в тысячах динамических задач, но не должен. Предполагается, что DAG воздушного потока должны быть довольно постоянными. Например, вы все еще можете использовать Airflow, чтобы обрабатывать весь набор очищенных данных и позже использовать эту информацию в процессе ETL.

Большое количество динамических задач может привести к запуску DAG, например:

enter image description here

Что приводит к большому количеству информации о мусоре как в графическом интерфейсе, так и в файлах журнала.


Но если вы действительно хотите использовать только Airflow, вы можете прочитать эту статью (о динамическом создании DAG) и эту статью (о динамическом создании задач внутри DAG).

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...