Spark 2.4 Amazon AWS журнал отладки - PullRequest
0 голосов
/ 25 декабря 2018

Попытка работать с Amazon AWS (особенно с корзинами s3a) из Spark v2.4.
Я понимаю, что мне нужно добавить параметры журналирования для Amazon, чтобы увидеть, что это за ошибка

Поэтому я добавил в spark/conf/log4.properties файл:

log4j.logger.com.amazonaws=DEBUG
log4j.logger.org.apache.hadoop.fs.s3a=DEBUG
log4j.logger.com.amazonaws.request=DEBUG
log4j.logger.org.apache.http=DEBUG
log4j.logger.org.apache.http.wire=ERROR

, но я их не вижуЖурналы в любом месте :(

Какие правильные настройки для регистрации подключения / процесса / событий Amazon от Spark?

PS Сам Spark + Hadoop, работающий в экземпляре EC2 - мне удалось настроить их с помощьюЯ не являюсь вариантом Spark для Amazon - это отдельный экземпляр, который я установил сам. Извините за путаницу с AWS - это не Управляемый Amazon экземпляр - это мои собственные настройки

Ответы [ 3 ]

0 голосов
/ 26 декабря 2018

Когда вы создаете кластер, перейдите к расширенному параметру -> Общие параметры кластера -> Общие параметры -> Флажок.

Выберите его и передайте местоположение S3.Вы должны увидеть логи в этом ведре

0 голосов
/ 28 декабря 2018

Обычно журналы настраиваются так, чтобы они отправлялись «куда-то» на локальные рабочие узлы, а затем собирались в общее хранилище.Если все настроено для сохранения на S3, а S3 не работает, ну, вы их не увидите.

Поиграйте с storeiag в командной строке, прежде чем подойти к искре.: он входит в консоль и проводит стресс-тестирование соединения.Если он не может работать с S3, Spark тоже не собирается.

0 голосов
/ 25 декабря 2018

Я использую следующие значения для spark log4.properties:

# Set everything to be logged to the console
log4j.rootCategory=INFO, console
log4j.appender.console=org.apache.log4j.ConsoleAppender
log4j.appender.console.target=System.err
log4j.appender.console.layout=org.apache.log4j.PatternLayout
log4j.appender.console.layout.ConversionPattern=%d{yy/MM/dd HH:mm:ss} %p %c{1}: %m%n

# Settings to quiet third party logs that are too verbose
log4j.logger.org.eclipse.jetty=INFO
log4j.logger.org.eclipse.jetty.util.component.AbstractLifeCycle=INFO
log4j.logger.org.apache.spark.repl.SparkIMain$exprTyper=INFO
log4j.logger.org.apache.spark.repl.SparkILoop$SparkILoopInterpreter=INFO

Журналы можно найти в Amazon AWS в следующем месте в AWS Console:

-> Amazon EMR 
-> Clusters (choose the relevant cluster) 
-> Application History
-> Application ID (choose relevant app id)
-> Executors
-> choose the driver or one of the executors
-> View logs

URI необработанных журналов можно найти в Amazon AWS в следующем месте в AWS Console:

-> Amazon EMR 
-> Clusters (choose the relevant cluster) 
-> Summary
-> Log URI
...