pyspark не работает, так как время сеансов истекло - PullRequest
0 голосов
/ 17 сентября 2018

У нас установлена ​​anaconda для python3, доступ к которой можно получить через jupyterhub. Мы создали новый env с anaconda для python2. Ядро можно увидеть в пользовательском интерфейсе jupyter, но ядро ​​python2 не работает. Нам удалось запустить pyspark индивидуально. Тем не менее, это инициализирует контекст искры, но требует времени для возврата результатов для простых шоу баз данных, пока кластер не используется. И как только запрос возвращает результат, выполнение следующего запроса не будет возвращать результаты в течение нескольких часов. Ниже мы видим ошибки в журналах пряжи. Любые указатели по решению проблемы приветствуются.

Container id: container_e48_1536611621510_0248_01_000003
Exit code: 1
Stack trace: ExitCodeException exitCode=1: 
    at org.apache.hadoop.util.Shell.runCommand(Shell.java:604)
    at org.apache.hadoop.util.Shell.run(Shell.java:507)
    at org.apache.hadoop.util.Shell$ShellCommandExecutor.execute(Shell.java:789)
    at org.apache.hadoop.yarn.server.nodemanager.LinuxContainerExecutor.launchContainer(LinuxContainerExecutor.java:399)
    at org.apache.hadoop.yarn.server.nodemanager.containermanager.launcher.ContainerLaunch.call(ContainerLaunch.java:302)
    at org.apache.hadoop.yarn.server.nodemanager.containermanager.launcher.ContainerLaunch.call(ContainerLaunch.java:82)
    at java.util.concurrent.FutureTask.run(FutureTask.java:266)
    at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1142)
    at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:617)
    at java.lang.Thread.run(Thread.java:748)

Shell output: main : command provided 1 

Мы следовали установке ядра согласно https://ipython.readthedocs.io/en/stable/install/kernel_install.html

...