PySpark: суфлеpartitions против перераспределения - PullRequest
0 голосов
/ 28 марта 2020

PySpark имеет параметр конфигурации spark. sql .shuffle.partitions, который контролирует количество разделов при перетасовке данных для объединений или объединений. С другой стороны, у нас также есть функция repartition (), которая позволяет вам определять количество разделений, равномерно распределенных для фрейма данных. Почему существует две вещи для контроля количества разделов, когда shuffle.partitions служит этой цели? Кроме того, как перераспределение отличается от искры. sql .shuffle.partitions?

...