У меня есть два набора данных, которые необходимо объединить, и объединить результаты для одного и того же ключа.
Пример:
Набор данных 1:
ключ1, значение1
ключ2, значение2
ключ3, значение3
Набор данных 2:
ключ1, значение4
ключ4, значение5
ключ1, значение6
Внутреннее объединение с использованием операции joinWith для этих двух наборов данных предоставит мне:
Объединенный набор данных:
Tuple2 << key1, value1>,>
Tuple2 << key1, value1>,>
Я хочу объединить все результаты для key1 в левом кортеже и сгенерировать что-то вроде:
Tuple2 <, список {<key1, value4>, }>
Для этого я могу:
- joinWith
- groupByKey
- reduceGroups
Поскольку groupBy является дорогостоящей операцией, есть ли другой способ добиться этого?