Я пытаюсь написать программу для подсчета слова для каждой страны в текстовом файле с использованием подхода RDD.
Пример данных:
India, It is having 1.5 Billion population
India, It is prospering in IT and manufacturing
India, It has lot of natural mineral resources
US, It's global economic hub
US, It outsources IT work to India
US, It's global economic hub
US, It's global economic hub
Например, для "Индии" - Сколько раз считаются все слова, сколько раз «Это» повторяется?
Результат должен выглядеть следующим образом.
India, (It,3) ,(is,2)
... и так далее. То же, что и для США.
Так как я использую Блокнот данных, поэтому все другие сеансы спарк и контекст не требуются, пожалуйста, найдите следующий подход.
val textRdd:RDD[String] = sc.textFile("/FileStore/tables/Data1")
val Rdd2 = textRdd.map(rec => rec.split(","))
val Rdd3 = Rdd2.map(rec => (rec(0),rec(1).split(" "))).collect()
def func(str1:String, arr1:Array[String]):(String,String) = {
return (str1,arr1(_))
}
Примечание: Данные1 имея данные, как указано выше.
Может кто-нибудь помочь, пожалуйста, по выше?