У меня есть некоторые входные данные как RDD[Map[Array[String],String]]
:
(Map(Array[c1, a1] -> Y),
Map(Array[a1] ->Y),
Map(Array[c1, a1] ->N),
Map[Array[a1] ->N),
Map[Array[a1] ->Y))
Я хочу группировать по ключу, значению и масштабировать каждое значение по ключу. В качестве вывода я хочу создать RDD[Map[Array[String],Int]]
следующим образом:
(Map(Array[c1, a1, Y] -> 0.5),
(Map(Array[c1, a1, N] -> 0.5),
(Map(Array[a1 ,Y ] -> 0.66),
(Map(Array[a1, N] -> 0.33))
Я использую Scala и Spark для больших данных.