в каком случае shuffle pyspark (mapreduce?) не хорошо? - PullRequest
0 голосов
/ 22 сентября 2019

Как и в MapReduce, хеш-соединение Shuffle работает лучше всего, когда данные не перекошены и равномерно распределены по клавишам.

это состояние, которое я читаю о хеш-соединении shuffle.но что, если ключ распределен равномерно, но когда ключ только один для каждого?

  1. , когда df1 и df2 имели каждую отдельную пару ключей
  2. когда df1 намного меньше, чем df2?
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...