Консольный вывод с рабочих узлов в файл в режиме кластера Spark - PullRequest
0 голосов
/ 26 октября 2018

Я запускаю сценарий pyspark, используя spark-submit.Задание выполняется успешно.

Теперь я пытаюсь собрать выходные данные консоли этого задания в файл, как показано ниже.

spark-submit in yarn-client mode

spark-submit --master yarn-client --num-executors 5 --executor-cores 5 --driver-memory 5G --executor-memory 10G --files /usr/hdp/current/spark-client/conf/hive-site.xml --jars /usr/hdp/current/spark-client/lib/datanucleus-api-jdo-3.2.6.jar,/usr/hdp/current/spark-client/lib/datanucleus-rdbms-3.2.9.jar,/usr/hdp/current/spark-client/lib/datanucleus-core-3.2.10.jar --py-files customer_profile/customer_helper.py#customer_helper.py,customer_profile/customer_json.json customer_profile/customer.py  > /home/$USER/logs/customer_2018_10_26 2>&1

Я могуперенаправить весь консольный вывод, записанный в файл /home/$USER/logs/customer_2018_10_26, включая все loglevels and any stacktrace errors

spark-submit in yarn-cluster mode

spark-submit --master yarn-cluster --num-executors 5 --executor-cores 5 --driver-memory 5G --executor-memory 10G --files /usr/hdp/current/spark-client/conf/hive-site.xml --jars /usr/hdp/current/spark-client/lib/datanucleus-api-jdo-3.2.6.jar,/usr/hdp/current/spark-client/lib/datanucleus-rdbms-3.2.9.jar,/usr/hdp/current/spark-client/lib/datanucleus-core-3.2.10.jar --py-files customer_profile/customer_helper.py#customer_helper.py,customer_profile/customer_json.json customer_profile/customer.py  > /home/$USER/logs/customer_2018_10_26 2>&1

в режиме yarn-cluster Я не могу перенаправить консольный вывод, записанный вфайл /home/$USER/logs/customer_2018_10_26.

Проблема в том, что если моя работа не работает в режиме yarn-client, я могу перейти к файлу /home/$USER/logs/customer_2018_10_26 и легко найти ошибки.

Но если моя работа не работает в режиме yarn-cluster, тогдаЯ не получаю трассировку стека для копирования в файл /home/$USER/logs/customer_2018_10_26.Единственный способ исправить ошибку - использовать yarn logs.

Я бы хотел избежать использования опции yarn logs Вместо этого я хочу видеть error stack trace в самом файле /home/$USER/logs/customer_2018_10_26 при использовании режима yarn-cluster.

Как мне добитьсячто?

...