Проблема :
У меня есть управляемая среда Cloud Composer, под мастером кластера Kubernetes 1.9.7-gke.6.Я попытался обновить его (а также узлы пула по умолчанию) до 1.10.7-gke.1, так как обновление было доступно.
С тех пор Airflow действует случайным образом.Задачи, которые работали должным образом, терпят неудачу без какой-либо определенной причины.Это делает Airflow непригодным для использования, поскольку планирование становится ненадежным.Вот пример задачи, которая запускается каждые 15 минут и для которой поведение очень заметно сразу после обновления: airflow_tree_view
При наведении курсора на невыполненную задачу отображается только Operator: null
сообщение ( null_operator ).Кроме того, для этой задачи нет журнала.
Мне удалось воспроизвести ситуацию с другой средой Composer, чтобы убедиться, что обновление является причиной неисправности.
То, что я пробовал до сих пор :
Я предположил, что обновление могло испортить либо планировщик, либо Celery (Cloud Composer по умолчанию использует CeleryExecutor).
Я попытался перезапустить планировщик с помощью следующей команды:
kubectl get deployment airflow-scheduler -o yaml | kubectl replace --force -f -
Я также попытался перезапустить Celery изнутри рабочих, с
kubectl exec -it airflow-worker-799dc94759-7vck4 -- sudo celery multi restart 1
Перезапуск Celery, ноэто не решает проблему.Поэтому я попытался перезапустить воздушный поток полностью так же, как и с планировщиком воздушного потока.
Ни одно из этих исправлений не решило проблему.
Примечание: я не могу получить доступ к Flower для наблюдения за Celery при следовании этому уроку ( Google Cloud - Подключение к Flower ).Подключение к локальному хосту: 5555 остаются в состоянии ожидания навсегда.Я не знаю, связано ли это.
Дайте мне знать, если я что-то упустил!