в каком случае shuffle pyspark (mapreduce?) не хорошо?

Как и в MapReduce, хеш-соединение Shuffle работает лучше всего, когда данные не перекошены и равномерно распределены по клавишам.

это состояние, которое я читаю о хеш-соединении shuffle.но что, если ключ распределен равномерно, но когда ключ только один для каждого?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.