При выполнении рабочей нагрузки SVD ++ я генерировал ~ 1,5 ГБ данных с 2560 разделами.
На каждого работника у меня было x2 исполнителей с 4 ядрами и 14 ГБ памяти каждый. При уменьшении количества рабочих с 16 до 8 объем Shuffle Read увеличился с 495 ГБ до 928,6 ГБ.
Мой вопрос таков: почему сокращение числа работников / исполнителей приводит к тому, что генерируется больше данных для случайного чтения?