Spark UI определенного application_id работает медленно, если задание выполняется довольно долго - PullRequest
0 голосов
/ 12 июня 2018

Когда я щелкаю application_id долго выполняемого задания (скажем, 24 часа) в интерфейсе Spark, загрузка этапов занимает много времени.Я не знаю, связано ли это с моей конфигурацией свечи или с моим клиентом в режиме развертывания.Вот больше информации о моей конфигурации свечей:

--master yarn \
--deploy-mode client \
--driver-memory 12g \
--executor-memory 8g \
--executor-cores 4 \
--num-executors 108 \

1 Ответ

0 голосов
/ 12 июня 2018

Пользовательский интерфейс работает на компьютере драйвера.Поэтому, если у машины заканчивается ОЗУ, пользовательский интерфейс работает очень медленно.

Здесь я вижу, что вы запрашиваете 12 ГБ ОЗУ для драйвера.Это много, и если это вся память, доступная на машине, то имеет смысл, что в какой-то момент интерфейс становится очень медленным.Предполагается, что этот процесс только запускает вычисления и делит их между рабочими.

Я предполагаю, что вы собираете большой объем данных, что, как правило, не очень хорошая идея.(см. https://databricks.gitbooks.io/databricks-spark-knowledge-base/content/best_practices/dont_call_collect_on_a_very_large_rdd.html)

Лучше было бы записать СДР в файл или в распределенную БД.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...