Я пытаюсь подсчитать появления определенных предметов на определенную дату.
Структура моего ввода Date\tItem1:AppearencesOfItem1,...,ItemN:AppearencesOfItemN
Пример
20/10/2000\tItem1:1,Item2:5
20/10/2000\tItem1:2
21/10/2000\tItem1:5
Для этого я создаю следующую структуру PairRdd:
[(20/10/2000, (Item1, 1))
(20/10/2000, (Item2, 5))
(20/10/2000, (Item1, 5))
(21/10/2000, (Item1, 5))]
, а затем groupByKey
в дату, которая приводит к:
[(20/10/2000, Iterable[(Item1, 1), (Item2, 5), (Item1, 5))
(21/10/2000, Iterable[(Item1, 5)]
Что я хочупосле этого шага уменьшите значение этих пар и суммируйте появления элементов, имеющих один и тот же ключ, чтобы результат получился таким:
[(20/10/2000, Iterable[(Item1, 6), (Item2, 5))
(21/10/2000, Iterable[(Item1, 5)]
Однако я не нашел способа уменьшитьна значение этих pairRdds.Во-первых, мой подход неверен?