Блокнот данных отсоединяется в стандартном кластерном режиме - PullRequest
0 голосов
/ 09 октября 2019

РЕДАКТИРОВАТЬ: Обновление. Это происходит независимо от количества пользователей. Даже с одним пользователем это все равно происходит.

Блокнот с данными постоянно отключается во время использования.

Наш специалист по данным работает на Jupyter, и, поскольку у Коала есть пробелы, он продолжаетиспользуйте Pandas с несколькими обходными путями, что означает большую нагрузку на драйвер, но ноутбук кажется работоспособным.

Я искал людей, сталкивающихся с подобными проблемами, но не видел этого.

Это моя конфигурация искры:

spark.driver.extraJavaOptions -XX:+UseG1GC
spark.driver.cores 8
spark.driver.memory 16g
spark.executor.extraJavaOptions -XX:+UseG1GC

Две ошибки, которые ученый видит при отсоединении:

Ноутбук отсоединен

Notebook detached
Exception when creating execution context: 
java.util.concurrent.TimeoutException: Exchange timed out after 15 seconds.

Контекст Spark остановлен

The spark context has been stopped or the cluster has been terminated.
Please restart the cluster or attach this notebook to a different cluster.

Кластер выглядит нормально, в том смысле, что я могу подключить другую записную книжку и запускать команды.

Я ожидаю, что произойдет внет смысла случайным образом отсоединять ноутбук и терять всю работу.

Когда я просматриваю журналы драйверов, это единственные сообщения, которые выделяются:

19/10/08 18:02:59 INFO TaskSchedulerImpl: Killing all running tasks in stage 82: Stage finished
19/10/08 18:02:59 INFO DAGScheduler: Job 57 finished: collectResult at OutputAggregator.scala:149, took 9.157699 s
19/10/08 18:02:59 INFO SQLAppStatusListener: Execution ID: 28 Total Executor Run Time: 21250
19/10/08 18:02:59 INFO CodeGenerator: Code generated in 21.921114 ms
19/10/08 18:03:00 INFO ProgressReporter$: Removed result fetcher for 8919779546758574174_8732072469296650198_763335e3d46b4641ba75b3c6d4b4ffac
19/10/08 18:04:30 INFO DriverCorral$: Cleaning the wrapper ReplId-5231d-7b5c0-a6423-e (currently in status Idle(ReplId-5231d-7b5c0-a6423-e))
19/10/08 18:04:30 INFO DriverCorral$: sending shutdown signal for REPL ReplId-5231d-7b5c0-a6423-e
19/10/08 18:04:31 INFO PythonDriverLocal$Watchdog: Python shell exit code: 143
19/10/08 18:04:31 INFO PythonDriverLocal$RedirectThread: Python RedirectThread exit
19/10/08 18:04:31 INFO PythonDriverLocal$RedirectThread: Python RedirectThread exit
19/10/08 18:04:31 INFO PythonDriverLocal$Watchdog: No strace information recovered: /tmp/637654b25044473abae9a282b9564078.strace is missing
19/10/08 18:04:31 INFO DriverCorral$: sending the interrupt signal for REPL ReplId-5231d-7b5c0-a6423-e
19/10/08 18:04:31 INFO DriverCorral$: waiting for localThread to stop for REPL ReplId-5231d-7b5c0-a6423-e
19/10/08 18:04:31 INFO DriverCorral$: ReplId-5231d-7b5c0-a6423-e successfully discarded

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...