Масштабирование ресурсов Spark останавливается в # физических ядрах - PullRequest
0 голосов
/ 04 февраля 2020

После большого количества испытаний в разных приложениях Spark на одном узле я заметил, что:

Масштабирование приложения останавливается на # количестве физических ядер

Уже известно, что приложения не будут иметь одинаковый масштаб между физическим и логическим ядрами (поскольку они совместно используют кэш, диск и т. Д. c), но мой вопрос касается Spark. Что конкретно делает Spark и не имеет хорошего масштабирования в одном узле.

Вот мой тренд масштабирования в машине с 6 физическими ядрами (12 логических):

enter image description here

Примечание: Это исполнение с тем же входом, и я сохранил лучшее время обработки после разных испытаний с разными конфигурациями (# spark.sql.shuffle.partitions, # spark.default.parallelism et c)

Я нашел похожий вопрос , но ответ был приятным, но общим. Я хотел бы получить ответ о задачах, которые нельзя масштабировать в одном узле в Spark.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...