Предположим, у нас есть данные DataSet =
(a, 1) (a, 3) (b, 2) (b, 3) (c, 1) (c, 3) (c, 2) (b, 2) (a, 2)
Моя первая идея - сгруппировать элементы и отсортировать их по значению
data.groupBy(0).sortGroup(1)
, тогда мы получим:
(a, 1) (a, 2) (a, 3)
(b, 1) (b, 2) (b, 3)
(c, 1) (c, 2) (c, 3)
Итак, вопрос в том, как я могу вывести результаты для умножения разделов HDFS с обычным разделителем, например:
parition0: (a, 1) (a, 2) (a, 3) (b, 1) (b, 2) (b, 3)
parition1: (c, 1) (c, 2) (c, 3)