Где можно увидеть консоль искрового выхода при работе в кластере пряжи? - PullRequest
0 голосов
/ 11 февраля 2019

Я начинающий со Spark, Hadoop и Yarn.Я устанавливаю Spark с: https://spark.apache.org/docs/2.3.0/ и Hadoop / Yarn с: https://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-common/SingleCluster.html. Моя цель - запустить приложение Spark на кластере пряжи, но у меня есть проблемы.Как мы узнаем, когда работает наша установка?Я покажу вам мой пример.После настройки я попытался запустить тестовый jar: examples / jars / spark-examples * .jar.Когда я запускаю локальную искру с помощью:пряжи кластера с:это примерно 3,1370956854784273 "в консоли, и я не знаю, где я могу найти это.Я смотрю журнал в URL http://localhost:8088/cluster/cluster, но он не появляется.Вы знаете, где я должен смотреть?Спасибо за вашу помощь и хорошего дня.

Ответы [ 4 ]

0 голосов
/ 18 февраля 2019

Я столкнулся с той же проблемой и, наконец, смог проверить «Пи примерно 3,14 ...» после следующих шагов:

Сначала включите агрегирование журнала пряжи на всех узлах, добавив эти строки в yarn-site.xml

<property>
    <name>yarn.log-aggregation-enable</name>
    <value>true</value>
</property>
<property>
    <name>yarn.nodemanager.log-aggregation.roll-monitoring-interval-seconds</name>
    <value>3600</value>
</property>

Вам может понадобиться перезапустить yarn и dfs после изменения yarn-site.xml

Затем проверить журналы с помощью командной строки:

yarn logs -applicationId <applicationID>

image"> Pi is roughly...

Надеюсь, это поможет.

0 голосов
/ 11 февраля 2019

Вы можете использовать view то же самое, используя менеджер ресурсов и идентификатор приложения, или с помощью следующей команды вы получите полный журнал для приложения, используя
журналы пряжи -applicationId идентификатор приложения

0 голосов
/ 12 февраля 2019

Вам нужно найти контейнер драйвера Spark в YARN или в интерфейсе Spark.Оттуда вы можете перейти на вкладку Executors, и вы увидите ссылки stdout и stderr для каждой из них (плюс драйвер, где будет конечный результат).

Overtime, YARNудалит эти журналы, поэтому вам нужно включить агрегацию журналов и развернуть Spark History Server.


FWIW, Cloudera идет олл-ин в запуске Spark на Кубернетес в последних анонсах.Не уверен, что это говорит о том, что YARN (или HDFS с Ceph или S3 являются популярными хранилищами данных в этих развертываниях)

0 голосов
/ 11 февраля 2019

Вам нужно будет записать вывод консоли в файл, для этого он запишет вывод вашей программы spark, выполняемой в файл, вы можете использовать tail -f 100 on consoleoutfile.txt , указанный ниже, чтобы увидеть вывод вашей консоли.

./submit_command > local_fs_path/consoleoutfile.txt 2>&1
...