Набор данных Spark: объединить все результаты объединения по ключу - PullRequest
0 голосов
/ 15 мая 2018

У меня есть два набора данных, которые необходимо объединить, и объединить результаты для одного и того же ключа.

Пример:

Набор данных 1: ключ1, значение1 ключ2, значение2 ключ3, значение3

Набор данных 2: ключ1, значение4 ключ4, значение5 ключ1, значение6

Внутреннее объединение с использованием операции joinWith для этих двух наборов данных предоставит мне:

Объединенный набор данных: Tuple2 << key1, value1>,> Tuple2 << key1, value1>,>

Я хочу объединить все результаты для key1 в левом кортеже и сгенерировать что-то вроде:

Tuple2 <, список {<key1, value4>, }>

Для этого я могу:

  • joinWith
  • groupByKey
  • reduceGroups

Поскольку groupBy является дорогостоящей операцией, есть ли другой способ добиться этого?

...