Pyspark Shuffle Написать размер - PullRequest
       34

Pyspark Shuffle Написать размер

1 голос
/ 24 сентября 2019

Я читаю данные из двух источников на этапах 2 и 3. Как вы можете видеть, на этапе 2 размер входного файла составляет 2,8 ГБ, для этапа 3 - 38,3 ГБ. Но раздел «Произвольная запись» для этапа 2 почти в 10 раз большевходной размер, 23,9 ГБ.Почему, на этапе 3, он намного меньше по сравнению с его входным размером?Это не имеет никакого смысла для меня.Интересно, почему он так велик для stage2?Это делает перераспределение, учитывая, что у него есть только 16 разделов на чтение?enter image description here

...