РЕДАКТИРОВАТЬ: Обновление. Это происходит независимо от количества пользователей. Даже с одним пользователем это все равно происходит.
Блокнот с данными постоянно отключается во время использования.
Наш специалист по данным работает на Jupyter, и, поскольку у Коала есть пробелы, он продолжаетиспользуйте Pandas с несколькими обходными путями, что означает большую нагрузку на драйвер, но ноутбук кажется работоспособным.
Я искал людей, сталкивающихся с подобными проблемами, но не видел этого.
Это моя конфигурация искры:
spark.driver.extraJavaOptions -XX:+UseG1GC
spark.driver.cores 8
spark.driver.memory 16g
spark.executor.extraJavaOptions -XX:+UseG1GC
Две ошибки, которые ученый видит при отсоединении:
Ноутбук отсоединен
Notebook detached
Exception when creating execution context:
java.util.concurrent.TimeoutException: Exchange timed out after 15 seconds.
Контекст Spark остановлен
The spark context has been stopped or the cluster has been terminated.
Please restart the cluster or attach this notebook to a different cluster.
Кластер выглядит нормально, в том смысле, что я могу подключить другую записную книжку и запускать команды.
Я ожидаю, что произойдет внет смысла случайным образом отсоединять ноутбук и терять всю работу.
Когда я просматриваю журналы драйверов, это единственные сообщения, которые выделяются:
19/10/08 18:02:59 INFO TaskSchedulerImpl: Killing all running tasks in stage 82: Stage finished
19/10/08 18:02:59 INFO DAGScheduler: Job 57 finished: collectResult at OutputAggregator.scala:149, took 9.157699 s
19/10/08 18:02:59 INFO SQLAppStatusListener: Execution ID: 28 Total Executor Run Time: 21250
19/10/08 18:02:59 INFO CodeGenerator: Code generated in 21.921114 ms
19/10/08 18:03:00 INFO ProgressReporter$: Removed result fetcher for 8919779546758574174_8732072469296650198_763335e3d46b4641ba75b3c6d4b4ffac
19/10/08 18:04:30 INFO DriverCorral$: Cleaning the wrapper ReplId-5231d-7b5c0-a6423-e (currently in status Idle(ReplId-5231d-7b5c0-a6423-e))
19/10/08 18:04:30 INFO DriverCorral$: sending shutdown signal for REPL ReplId-5231d-7b5c0-a6423-e
19/10/08 18:04:31 INFO PythonDriverLocal$Watchdog: Python shell exit code: 143
19/10/08 18:04:31 INFO PythonDriverLocal$RedirectThread: Python RedirectThread exit
19/10/08 18:04:31 INFO PythonDriverLocal$RedirectThread: Python RedirectThread exit
19/10/08 18:04:31 INFO PythonDriverLocal$Watchdog: No strace information recovered: /tmp/637654b25044473abae9a282b9564078.strace is missing
19/10/08 18:04:31 INFO DriverCorral$: sending the interrupt signal for REPL ReplId-5231d-7b5c0-a6423-e
19/10/08 18:04:31 INFO DriverCorral$: waiting for localThread to stop for REPL ReplId-5231d-7b5c0-a6423-e
19/10/08 18:04:31 INFO DriverCorral$: ReplId-5231d-7b5c0-a6423-e successfully discarded