Обновление узла Cloud Composer GKE приводит к случайному сбою задачи Airflow - PullRequest
0 голосов
/ 17 сентября 2018

Проблема :

У меня есть управляемая среда Cloud Composer, под мастером кластера Kubernetes 1.9.7-gke.6.Я попытался обновить его (а также узлы пула по умолчанию) до 1.10.7-gke.1, так как обновление было доступно.

С тех пор Airflow действует случайным образом.Задачи, которые работали должным образом, терпят неудачу без какой-либо определенной причины.Это делает Airflow непригодным для использования, поскольку планирование становится ненадежным.Вот пример задачи, которая запускается каждые 15 минут и для которой поведение очень заметно сразу после обновления: airflow_tree_view

При наведении курсора на невыполненную задачу отображается только Operator: null сообщение ( null_operator ).Кроме того, для этой задачи нет журнала.

Мне удалось воспроизвести ситуацию с другой средой Composer, чтобы убедиться, что обновление является причиной неисправности.

То, что я пробовал до сих пор :

Я предположил, что обновление могло испортить либо планировщик, либо Celery (Cloud Composer по умолчанию использует CeleryExecutor).

Я попытался перезапустить планировщик с помощью следующей команды:

kubectl get deployment airflow-scheduler -o yaml | kubectl replace --force -f -

Я также попытался перезапустить Celery изнутри рабочих, с

kubectl exec -it airflow-worker-799dc94759-7vck4 -- sudo celery multi restart 1

Перезапуск Celery, ноэто не решает проблему.Поэтому я попытался перезапустить воздушный поток полностью так же, как и с планировщиком воздушного потока.

Ни одно из этих исправлений не решило проблему.

Примечание: я не могу получить доступ к Flower для наблюдения за Celery при следовании этому уроку ( Google Cloud - Подключение к Flower ).Подключение к локальному хосту: 5555 остаются в состоянии ожидания навсегда.Я не знаю, связано ли это.

Дайте мне знать, если я что-то упустил!

1 Ответ

0 голосов
/ 02 октября 2018

1.10.7-gke.2 уже доступна [1].Можете ли вы продолжить обновление до 1.10.7-gke.2, чтобы увидеть, сохраняется ли проблема?

[1] https://cloud.google.com/kubernetes-engine/release-notes

...