Ваш запрос имеет слишком общий характер.Однако я постараюсь связать это с одним из инцидентов, которые у меня были.Был похожий инцидент, который произошел со мной.Я могу поделиться подробностями своего исполнения, если это поможет.
Я выполнял серию SQL-операторов Spark (с объединениями и фильтрами), и задание вообще не завершалось.После тщательного анализа в веб-интерфейсе Spark я понял, что входные данные на одном из этапов работали в ГБ, где мои данные были слишком малы (менее 100 МБ).
Я проверил SQL-запросы и отладил их на уровне данных только для того, чтобы понять, что одна из JOINS вызывала проблему.Был картезианский союз, который формировался, из-за чего количество записей достигло миллионов.Это приводит к созданию данных во время выполнения из-за ошибочного условия соединения.Как только соединение было исправлено, проблема была решена.
Пожалуйста, проверьте ваш код.Вы можете получить больше идей.Spark сама по себе не создает данные.