Задачи Cloud Composer терпят неудачу без причины или журналов - PullRequest
0 голосов
/ 21 января 2019

Я запускаю Airflow в управляемом Cloud-composer environment (версия 1.9.0), который работает в кластере Kubernetes 1.10.9-gke.5.

Все мои группы доступности баз данных работают ежедневно в 300:00 или 4:00Но где-то утром я вижу, что несколько задач не работают без причины в течение ночи.

  • При проверке журнала с помощью пользовательского интерфейса - я не вижу журнала и не вижу журнала, когдаЯ проверяю папку журнала в корзине GCS enter image description here

  • В подробностях экземпляра она гласит «Задача блокировки зависимостей от получения по расписанию», но зависимость являетсясам дагрун.enter image description here

  • Несмотря на то, что группа обеспечения доступности баз данных настроена на 5 попыток и сообщение электронной почты, она не выглядит, как будто повторная попытка произошла, и я не получилсообщение об ошибке по электронной почте.

  • Обычно я просто очищаю экземпляр задачи, и он запускается успешно с первой попытки.

Кто-нибудь сталкивался с подобной проблемой?

1 Ответ

0 голосов
/ 21 января 2019

Пустые журналы часто означают, что рабочий модуль Airflow был удален (т. Е. Он умер до того, как смог сбросить журналы в GCS), что обычно происходит из-за нехватки памяти. Если вы зайдете в свой кластер GKE (тот, что находится под капотом Composer), вы, вероятно, увидите, что действительно есть высохший модуль (GKE> Workloads> "airflow-worker").

Вы, вероятно, увидите в «Экземплярах задач», что указанным задачам не назначено ни Start Date, ни Job Id, ни рабочего (Hostname), что, как добавлено в журналы, является доказательством смерти модуля.

Так как обычно это происходит в группах с высокой степенью параллелизма, способ избежать этого - уменьшить параллелизм работника или использовать более качественную машину.

РЕДАКТИРОВАТЬ: Я подал Запрос функции от вашего имени, чтобы получать электронные письма в случае сбоя, даже если модуль был выселен.

...