После большого количества испытаний в разных приложениях Spark на одном узле я заметил, что:
Масштабирование приложения останавливается на # количестве физических ядер
Уже известно, что приложения не будут иметь одинаковый масштаб между физическим и логическим ядрами (поскольку они совместно используют кэш, диск и т. Д. c), но мой вопрос касается Spark. Что конкретно делает Spark и не имеет хорошего масштабирования в одном узле.
Вот мой тренд масштабирования в машине с 6 физическими ядрами (12 логических):

Примечание: Это исполнение с тем же входом, и я сохранил лучшее время обработки после разных испытаний с разными конфигурациями (# spark.sql.shuffle.partitions
, # spark.default.parallelism
et c)
Я нашел похожий вопрос , но ответ был приятным, но общим. Я хотел бы получить ответ о задачах, которые нельзя масштабировать в одном узле в Spark.