почему Tasks бездействуют какое-то время во время работы Spark - PullRequest
0 голосов
/ 25 ноября 2018

captured screenshot from Executors tab

Я запускаю искровое задание и заметил, что после завершения нескольких этапов задания некоторое время простаивали и снова запускались.

Версия Spark -2.2 и Java 1.8

Всего узлов - 3 (включая главный)

Всего ядер - 16 (по 8 на каждый канал данных)

Всего памяти - 16 ГБ (по 8 для каждого)

ниже приведена моя команда spark submit.

spark-submit --master yarn --deploy-mode cluster --executor-memory 1G --executor-cores 2 --num-executors 6 --jars jar1  --class wordcount wordcount.jar

Есть ли причины, по которым задачи переходят в состояние ожидания ?.Если да, в чем может быть причина.

Пожалуйста, найдите прикрепленный снимок экрана, который показывает, что в течение некоторого времени не выполняются активные задачи.

Спасибо.

1 Ответ

0 голосов
/ 26 ноября 2018

Возможно, у вас есть какая-то операция group, а результат этой операции вы видите как уменьшенное количество разделов.

Также это может быть плохо распределенное задание (плохо с точки зрения данных - некоторые узлы / разделы тяжелее других, и вам нужно дождаться их завершения, чтобы перейти к следующему шагу).

Некоторые примеры кода могут помочь понять смысл этого скриншота пользовательского интерфейса, но в качестве возможного решения - просто тщательно изучите свой код и попробуйте перехватить операции группирования / перераспределения, позаботьтесь о своей схеме разбиения - mb это ожидаемое поведение в вашем случаеи дважды проверьте операции ввода-вывода (да, возможно, вы уже что-то проверили, но иногда это случается).

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...