Question

В моей работе Spark версии 2.4.3 после всех преобразований, вычислений и объединений я записываю свой окончательный фрейм данных в s3 в формате паркета. Но независимо от количества ядер, моя работа требует фиксированной суммы для завершения действия сохранения

Для отдельных ядер count-8,16,24 время записи установлено на 8 минут. Из-за этого мое решение не становится масштабируемым. Как мне сделать мое решение масштабируемым, чтобы общее время выполнения задания стало пропорциональным используемым ядрам

Прикрепление скриншотов spark ui

введите описание изображения здесь

Отсутствие влияния ядер в тайминги Spark Write Action

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Отсутствие влияния ядер в тайминги Spark Write Action

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы