Как я могу вывести сгруппированные и отсортированные элементы в несколько разделов HDFS во Flink? - PullRequest
0 голосов
/ 24 апреля 2020

Предположим, у нас есть данные DataSet =

(a, 1)  (a, 3) (b, 2)  (b, 3)  (c, 1) (c, 3)  (c, 2)  (b, 2) (a, 2)

Моя первая идея - сгруппировать элементы и отсортировать их по значению

data.groupBy(0).sortGroup(1)

, тогда мы получим:

(a, 1) (a, 2) (a, 3)  
(b, 1) (b, 2) (b, 3) 
(c, 1) (c, 2) (c, 3)

Итак, вопрос в том, как я могу вывести результаты для умножения разделов HDFS с обычным разделителем, например:

parition0: (a, 1) (a, 2) (a, 3)  (b, 1) (b, 2) (b, 3)
parition1: (c, 1) (c, 2) (c, 3)
...