Я выполняю довольно простую работу Spark: прочитайте пару наборов данных Parquet (10-100 ГБ) каждый, сделайте несколько объединений и запишите результат обратно в Parquet.
Кажется, что Spark всегда получаетзастрял на последнем этапе.Этап остается в ожидании, даже если все предыдущие этапы завершены, и есть исполнители, ожидающие.Я ждал до 1,5 часов, и он просто застрял.
Я попробовал следующие отчаянные меры:
- Использование меньших наборов данных, кажется, работает, но затем план меняется (например, некоторые широковещательные объединения начинают всплывать), что не помогает при устранении неполадок.
- Выделение большего количества памяти для исполнителя или исполнителя не помогает.
Любая идея?
Подробнее