Spark UI Входные значения столбца слишком велики - PullRequest
0 голосов
/ 01 марта 2019

Я запустил работу по спекуляции и, чтобы отслеживать процесс, я проверил веб-интерфейс, который предоставляет спарк.На странице исполнителя я вижу ввод 305 ГБ и увеличивается.

При наведении курсора на столбец Input я получаю следующее описание

Байт и записи, считанные из Hadoop или из хранилища Spark

Мои входные данные составляют всего 300 МБ, но в столбце Input отображается 305 ГБ.Это ожидаемое поведение?Откуда поступают все дополнительные ГБ ввода?Если нет, то что вызывает такое поведение?

1 Ответ

0 голосов
/ 01 марта 2019

Ваш запрос имеет слишком общий характер.Однако я постараюсь связать это с одним из инцидентов, которые у меня были.Был похожий инцидент, который произошел со мной.Я могу поделиться подробностями своего исполнения, если это поможет.

Я выполнял серию SQL-операторов Spark (с объединениями и фильтрами), и задание вообще не завершалось.После тщательного анализа в веб-интерфейсе Spark я понял, что входные данные на одном из этапов работали в ГБ, где мои данные были слишком малы (менее 100 МБ).

Я проверил SQL-запросы и отладил их на уровне данных только для того, чтобы понять, что одна из JOINS вызывала проблему.Был картезианский союз, который формировался, из-за чего количество записей достигло миллионов.Это приводит к созданию данных во время выполнения из-за ошибочного условия соединения.Как только соединение было исправлено, проблема была решена.

Пожалуйста, проверьте ваш код.Вы можете получить больше идей.Spark сама по себе не создает данные.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...