Я работал с 7 исполнителем, я сделал persist(StorageLevel.MEMORY_ONLY_SER)
.
Когда я смотрел на вкладку хранилища в Spark UI.Я мог видеть, что 1180 МБ RDD сохранялись. Когда я копал глубже, я обнаружил, что эти 1,1 ГБ не были распределены равномерно.1 Исполнитель имеет 630 МБ, 1 имеет 320 МБ, 1 имеет 230 МБ, остальные - 0 МБ.
Я думал о распределении данных по так называемым repartition(7)
.Теперь эти же данные равномерно распределяются по кластеру, каждый из которых имеет 250 МБ (приблизительно).Это составляет 1750 МБ.
Ранее тот же самый Dataframe занимал 1,1 ГБ, кеширование после перераспределения занимало 1,7 ГБ.
Не могли бы вы помочь мне разобраться в этом.