Посчитайте слова для каждой страны в текстовом файле через RDD - PullRequest
0 голосов
/ 06 апреля 2020

Я пытаюсь написать программу для подсчета слова для каждой страны в текстовом файле с использованием подхода RDD.

Пример данных:

India, It is having 1.5 Billion population
India, It is prospering in IT and manufacturing 
India, It has lot of natural mineral resources
US, It's global economic hub
US, It outsources IT work to India
US, It's global economic hub
US, It's global economic hub

Например, для "Индии" - Сколько раз считаются все слова, сколько раз «Это» повторяется?

Результат должен выглядеть следующим образом.

India, (It,3) ,(is,2)

... и так далее. То же, что и для США.

Так как я использую Блокнот данных, поэтому все другие сеансы спарк и контекст не требуются, пожалуйста, найдите следующий подход.

val textRdd:RDD[String] = sc.textFile("/FileStore/tables/Data1")

val Rdd2 = textRdd.map(rec => rec.split(","))

val Rdd3 = Rdd2.map(rec => (rec(0),rec(1).split(" "))).collect()

def func(str1:String, arr1:Array[String]):(String,String) = {

  return (str1,arr1(_))

}

Примечание: Данные1 имея данные, как указано выше.

Может кто-нибудь помочь, пожалуйста, по выше?

1 Ответ

0 голосов
/ 06 апреля 2020

Для каждой пары (Страна, слово) счет может быть выполнен, а затем сгруппирован по стране:

// such format: ((India,is),2)
val countryWordCountRDD = textRdd
  .map(rec => rec.split(","))
  .flatMap(r => r.last.trim.split(" ").map(w => (r.head, w)))
  .map((_, 1))
  .reduceByKey((a, b) => a + b)

val result = countryWordCountRDD.map({ case ((country, word), counter) => (country, (word, counter)) })
    .groupByKey()
...