Jupyter и Livy теряют связь при чтении файла в PySpark EMR - PullRequest
0 голосов
/ 19 сентября 2019

Я получаю странную ошибку, когда при чтении данных паркета в блокноте jupyter в Spark EMR я получаю Session isn't active.Команда завершается менее чем за минуту, поэтому она не имеет ничего общего с livy.server.yarn.app-lookup-timeout

Когда я пытаюсь запуститьячейка после этой ошибки, я получаю

enter image description here

Ниже также, что происходит с искровым интерфейсом

enter image description here

Итак, сессия в основном мертва, и мне нужно перезапустить ядро.

Лучше всего предположить, что экземпляру, на котором работает jupyter, не хватает памяти и он должен уничтожить jupyter иЛивия.Хотя я могу ошибаться, я использую PySpark только 2 месяца.

Данные, которые я пытаюсь прочитать, имеют 4 раздела по 100 ГБ каждый.Для моих кластеров EMR у меня есть 3 экземпляра r5d.24xlarge, что более чем достаточно.Искал и не мог найти решение.Любая помощь приветствуется.Спасибо!

...