Question

Я использую кластер EMR из 40 узлов с 16 ядрами в каждом узле с 1 ТБ памяти, данные, которые я обрабатываю, близки к 70 ГБ-80 ГБ.

Я перераспределяю входной кадр данных так, чтобы каждыйИсполнитель может обработать равный кусок данных, однако переразметка не происходит должным образом, и 90% тяжелой работы выполняются 1-2 исполнителями, а остальные исполнители наслаждаются только MB данными, даже если я не делаюЯвно используйте перераспределения и разрешите спарк делать это, асимметрия в секциях все еще существует

Какое изменение я должен внести в мой код искры, чтобы каждый исполнитель получал почти одинаковый объем данных для обработки и асимметрия могла быть уменьшена.

Как лучше разделить данные в Spark для оптимальной обработки

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Как лучше разделить данные в Spark для оптимальной обработки

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Нет похожих вопросов