Как настроить / контролировать огромное количество эквивалентных DAG - PullRequest
0 голосов
/ 26 сентября 2018

Я новичок в Airflow и все еще изучаю концепции.

Я пытаюсь отслеживать огромное количество веб-страниц (> 1000) один раз в день.На данный момент я динамически создаю одну группу обеспечения доступности баз данных для каждой веб-страницы (сбор и обработка данных).Это работает с функциональной точки зрения.Однако, глядя на пользовательский интерфейс, я обнаружил, что количество групп доступности баз данных огромно, и мой вопрос:

  1. Это правильный способ сделать это?(одна группа обеспечения доступности баз данных для каждой веб-страницы)
  2. Можно ли как-то получить более полное представление о том, как осуществляется мониторинг всех веб-страниц?

Поскольку все группы обеспечения доступности баз данных эквивалентны и имеют дело только сс другим URL-адресом я подумал, что группирование этих групп DAG или общий обзор могут быть возможными или, по крайней мере, хорошей идеей.Например, если получение или обработка определенной веб-страницы не удается, я хотел бы легко увидеть это в пользовательском интерфейсе без необходимости прокручивать много страниц, чтобы найти определенную группу доступности базы данных.

1 Ответ

0 голосов
/ 27 сентября 2018

У вас должен быть только один DAG и несколько задач.Судя по предоставленной вами информации, единственное, что может измениться, - это URL, поэтому лучше иметь одну группу обеспечения доступности баз данных и выполнять много задач.

...