Планировщик воздушного потока создает PID для одного и того же тега, чтобы каждый раз генерировать задачи - PullRequest
0 голосов
/ 08 мая 2018

Я использую Local Executor. У меня есть ситуация, когда у меня есть уникальные пакеты, генерируемые для каждого идентификатора запроса, например, 1.py, 2.py.

1.py предполагается, что имеет две задачи, а 2.py имеет 3 задачи. Я также периодически получал бы больше даг, например, 3.py, 4.py и т. Д.

Есть ли проблема создания метки для каждого нового идентификатора / идентификатора запроса.

Я заметил, что Планировщик продолжает давать этот журнал.

Started a process (PID: 92186) to generate tasks for /Users/nshar141/airflow/dags/3.py - logging into /Users/nshar141/airflow/logs/scheduler/2018-05-07/3.py.log

Мой вопрос здесь заключается в том, почему планировщик продолжает генерировать отдельные идентификаторы PID для генерации задач. Я попытался изменить различные параметры в конфигурации, связанные с параллелизмом и параллелизмом, но, похоже, планировщик выполняет этот оператор каждый раз для каждого знака в папке dags.

Я прилагаю свое определение даг. Я хочу запустить DAG, как только он будет создан. Какие параметры я должен дать в start_time и scheduler_interval?

dag = DAG('3', description='Sample DAG',schedule_interval=@once,start_date=datetime(2018, 5, 07), catchup=False)

Так как у меня есть необходимость динамически генерировать даги с уникальным идентификатором даг и поместить их в папку дагс, моя проблема в том, чтобы планировщик генерировал слишком много IDS процессов для каждого дага в папке, которая уже была выполнена.

Image showing scheduler generating PIDs repeatedly

1 Ответ

0 голосов
/ 08 мая 2018

Почему вы хотите создать новую группу доступности базы данных для каждого запроса? Я думаю, что наиболее подходящим способом было бы хранить запросы и иметь одну группу обеспечения доступности баз данных для выполнения логики для нескольких запросов одновременно, в пакетном режиме. Вы можете запускать DAG очень часто, если хотите.

Похоже, вы хотите, чтобы задачи выполнялись как можно скорее. Если вас интересует почти полная производительность в реальном времени, Airflow может не подойти, и вместо этого вы захотите использовать очередь сообщений.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...