В моей работе Spark версии 2.4.3 после всех преобразований, вычислений и объединений я записываю свой окончательный фрейм данных в s3 в формате паркета. Но независимо от количества ядер, моя работа требует фиксированной суммы для завершения действия сохранения
Для отдельных ядер count-8,16,24 время записи установлено на 8 минут. Из-за этого мое решение не становится масштабируемым. Как мне сделать мое решение масштабируемым, чтобы общее время выполнения задания стало пропорциональным используемым ядрам
Прикрепление скриншотов spark ui
введите описание изображения здесь