Как отследить текущее исполнение моих приложений в Apache Spark - PullRequest
0 голосов
/ 17 февраля 2019

У меня есть экземпляр службы Apache Spark в облаке IBM (упрощенный план).После того, как я отправляю задание Spark, я хочу увидеть его прогресс, было бы замечательно увидеть его как способ Spark - получить интерфейс прогресса Spark с количеством разделов и всем остальным.Я также хотел бы получить соединение с сервером истории.

Я видел, что могу запустить ./spark-submit.sh ... --status <app id>, но я хотел бы получить что-то более информативное.

Я видел комментарий

Вы можете отслеживать текущее выполнение запущенного приложения и просматривать подробности ранее выполненных заданий в пользовательском интерфейсе истории заданий Spark, нажав Журнал заданий в Google Analytics.для служебной консоли Apache Spark.

здесь , но не могу понять, где именно я получаю эту консоль / историю.

Как примечание, есть лилюбая подробная техническая документация по этому сервису, например количество одновременных заданий, которые могут быть запущены, технологический стек и т. д.?

1 Ответ

0 голосов
/ 17 февраля 2019

Согласно искры Документация:

Каждый SparkContext запускает веб-интерфейс по умолчанию на порту 4040, который отображает полезную информацию о приложении.Сюда входит:

Список этапов и задач планировщика. Сводка размеров RDD и использования памяти. Информация об окружающей среде.Информация о запущенных исполнителях Вы можете получить доступ к этому интерфейсу, просто открыв http://{driver -node}: 4040 в веб-браузере.Если несколько SparkContexts работают на одном хосте, они будут привязаны к последовательным портам, начиная с 4040 (4041, 4042 и т. Д.).

Итог: http://{driver -node}: 4040 (замените узел драйвера наузел, в котором вызывается искровая работа) и вам следует хорошо идти

...