Question

Я выполняю довольно простую работу Spark: прочитайте пару наборов данных Parquet (10-100 ГБ) каждый, сделайте несколько объединений и запишите результат обратно в Parquet.

Кажется, что Spark всегда получаетзастрял на последнем этапе.Этап остается в ожидании, даже если все предыдущие этапы завершены, и есть исполнители, ожидающие.Я ждал до 1,5 часов, и он просто застрял.

Я попробовал следующие отчаянные меры:

Использование меньших наборов данных, кажется, работает, но затем план меняется (например, некоторые широковещательные объединения начинают всплывать), что не помогает при устранении неполадок.
Выделение большего количества памяти для исполнителя или исполнителя не помогает.

Любая идея?

Подробнее

Запуск Spark 2.3.1 на Amazon EMR (5.17)
client-mode на YARN
Дамп потока драйверов
Похоже на Задание искры показывает неизвестные на активных этапах и застряло , хотя я не уверен
Детали задания, показывающие, что этап находится в ожидании:

job details

Стадия искры застревает в ожидании

Подробнее

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Стадия искры застревает в ожидании

Подробнее

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы