Отсутствие влияния ядер в тайминги Spark Write Action - PullRequest
0 голосов
/ 07 августа 2020

В моей работе Spark версии 2.4.3 после всех преобразований, вычислений и объединений я записываю свой окончательный фрейм данных в s3 в формате паркета. Но независимо от количества ядер, моя работа требует фиксированной суммы для завершения действия сохранения

Для отдельных ядер count-8,16,24 время записи установлено на 8 минут. Из-за этого мое решение не становится масштабируемым. Как мне сделать мое решение масштабируемым, чтобы общее время выполнения задания стало пропорциональным используемым ядрам

Прикрепление скриншотов spark ui enter image description here enter image description here

введите описание изображения здесь

...