Почему задание spark-submit оставляет процесс, работающий на главном узле кластера (EMR)? - PullRequest
0 голосов
/ 09 апреля 2019

Я отправляю задание зажигания в Livy с помощью лямбда-функции AWS.Задание выполняется до конца программы драйвера, но затем не завершается.

Если в конец программы драйвера добавлены spark.stop () или sc.stop (), задание spark завершается наМенеджер ресурсов YARN и Livy сообщат об успехе.Тем не менее, на главном узле все еще работает ливиевый процесс, который занимает около 1,5 ГБ памяти.Если отправлено много заданий, это в конечном итоге использует и удерживает всю память главного узла.

Задание:

  • Извлекает записи из таблицы кустов

  • Собирает эти записи на главном узле и затем записывает их в файл pdf с использованием apache pdfbox

  • Загружает полученный PDF-файл в S3

Непосредственно работающий spark-submit в кластере дает те же результаты, однако, если I Ctrl + C во время выполнения задания spark-submit, процесс на главном узле завершается.

Мы ожидаемработа завершается сама по достижении конца программы драйвера.Если нет, то вызов функции shutdown должен вызываться при вызове spark.stop ().

...