У меня есть пакетное задание Spark, которое читает некоторые файлы json, записывает их в Hive, а затем запрашивает некоторые другие таблицы Hive, выполняет вычисления и записывает выходные данные в формате Orc обратно в Hive.
Что я испытываю, так это заданиезастревает с одним этапом в состоянии ожидания.
DAG выглядит следующим образом: Я использую Hadoop 2.7.3.2.6.5.0-292
, а Spark работает на YARN.
Я посмотрел журналы пряжи, журналы событий искры, но не вижу проблемы. Просто повторное выполнение задания приводит к тому же поведению.
Вопрос в том, что означает неизвестное состояние на стадии, как отладить, почему в нем находится задание?