Запуская распределенное приложение в Spark / YARN, я получаю следующую ошибку, которая убивает исполнителя и в конечном итоге убивает все приложение:
#
# A fatal error has been detected by the Java Runtime Environment:
#
# SIGSEGV (0xb) at pc=0x00007f4f85ab41b1, pid=3309, tid=0x00007f4f90a4e700
#
# JRE version: Java(TM) SE Runtime Environment (8.0_112-b15) (build 1.8.0_112-b15)
# Java VM: Java HotSpot(TM) 64-Bit Server VM (25.112-b15 mixed mode linux-amd64 compressed oops)
# Problematic frame:
# C [libSalience6.so+0x7631b1] lxaArrayTrie::Get(std::string const&) const+0x71
#
# Core dump written. Default location: /data/hadoop/yarn/local/usercache/koverse/appcache/application_1537930191769_0049/container_e08_1537930191769_0049_01_000016/core or core.3309
#
# An error report file with more information is saved as:
# /data/hadoop/yarn/local/usercache/koverse/appcache/application_1537930191769_0049/container_e08_1537930191769_0049_01_000016/hs_err_pid3309.log
#
# If you would like to submit a bug report, please visit:
# http://bugreport.java.com/bugreport/crash.jsp
# The crash happened outside the Java Virtual Machine in native code.
# See problematic frame for where to report the bug.
#
В libSalience6.so есть ошибка сегментации.Пока все хорошо!
Но ни файлы дампа памяти, ни файлы журналов не находятся там, где они говорят.
Эта ошибка произошла на slv004 кластера, поэтому каталог приложения yarn
/data/hadoop/yarn/local/usercache/koverse/appcache/application_1537930191769_0049
существует на этом узле.Но каталог контейнера не существует, а find
не обнаруживает файлы журнала.
Есть идеи, где может быть этот файл журнала?