Как лучше разделить данные в Spark для оптимальной обработки - PullRequest
0 голосов
/ 14 октября 2018

Я использую кластер EMR из 40 узлов с 16 ядрами в каждом узле с 1 ТБ памяти, данные, которые я обрабатываю, близки к 70 ГБ-80 ГБ.

Я перераспределяю входной кадр данных так, чтобы каждыйИсполнитель может обработать равный кусок данных, однако переразметка не происходит должным образом, и 90% тяжелой работы выполняются 1-2 исполнителями, а остальные исполнители наслаждаются только MB данными, даже если я не делаюЯвно используйте перераспределения и разрешите спарк делать это, асимметрия в секциях все еще существует

Какое изменение я должен внести в мой код искры, чтобы каждый исполнитель получал почти одинаковый объем данных для обработки и асимметрия могла быть уменьшена.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...