У нас есть приложение для структурированной потоковой передачи с поддержкой spark, и мы выполняем некоторую обработку перед записью данных в Sink. Приложение работает без проблем в течение 5-7 дней, но после завершения работы приложения с кодом выхода 100. Я отправляю свойства log4j (отправляю тот же файл драйверу и исполнителю) в приложение spark, как показано ниже.
Версия Spark: 2.4.0
log4j.rootLogger=INFO,rolling
log4j.appender.rolling=org.apache.log4j.RollingFileAppender
log4j.appender.rolling.layout=org.apache.log4j.PatternLayout
log4j.appender.rolling.layout.conversionPattern=[%d] %p %m (%c)%n
log4j.appender.rolling.maxFileSize=100MB
log4j.appender.rolling.maxBackupIndex=10
log4j.appender.rolling.file=/var/tmp/${app.logging.name}_driver.log
log4j.appender.rolling.encoding=UTF-8
log4j.logger.org.apache.spark=${app.logging.level}
log4j.logger.org.eclipse.jetty=WARN
Application application_1572644938702_751093 failed 1 times (global limit =2; local limit is =1) due to AM Container for appattempt_1572644938702_751093_000001 exited with exitCode: -100
Failing this attempt.Diagnostics: Container released on a *lost* nodeFor more detailed output, check the application tracking page: http://ip-xx-xx-xx-xx-ec2.internal:8088/cluster/app/application_1572644938702_751093 Then click on links to logs of each attempt.