Apache Airflow Job не справляется и считает, что успешные задания потока данных - это зомби - PullRequest
0 голосов
/ 14 января 2019

Сбой задания воздушного потока после обнаружения успешного задания потока данных как зомби.

Я запускаю почасовое задание Dataflow, которое запускается внешним экземпляром Airflow с использованием Python DataflowTemplateOperator. Пару раз в неделю поток данных полностью не отвечает на запросы статуса. Когда я уловил ошибку в режиме реального времени и попытался просмотреть состояние задания потока данных в пользовательском интерфейсе GCP, страница не будет загружаться, несмотря на то, что у меня есть сетевое подключение и возможность просматривать другие страницы на сайте GCP , Через несколько минут все возвращается в нормальное рабочее состояние. Похоже, это происходит в конце рабочего цикла или когда рабочие закрываются. Задания потока данных не дают сбоев и не сообщают о каких-либо ошибках. Airflow считает, что они потерпели неудачу, потому что, когда Dataflow перестает отвечать на запросы, Airflow предполагает, что задания являются зомби. Мне нужно было быстрое решение, и я просто увеличил количество повторов, но я хотел бы понять проблему и найти лучшее решение.

...