Вводом является RDD
, а желаемым выводом является список Java POJO
Привести аналогичный пример из SQL:
select col1, col2, col3, sum(col4) from table
group by col1, col2, col3;
Будучи совершенно новым для Java Spark, смог достичь уровня tuple2:
JavaPairRDD<Tuple2<Integer, String>, Integer> pairRDD =
rdd.mapToPair(e -> new Tuple2<>(new Tuple2<>(e.getCol1(), e.getCol2()), e.getCol3()))
.reduceByKey((v1, v2) -> v1 + v2);
Как использовать этот PairRDD
для создания списка Java POJO
, имеющего атрибуты ключа и суммированное значение?