У меня есть сценарий для захвата некоторых данных (не всех) из существующего RDD
, а затем их передачи другому Scala class
для реальных операций. Давайте посмотрим с данными примера (empnum, empname, emplocation, empsal) в текстовом файле.
11,John,Paris,1000
12,Daniel,UK,3000
первый шаг, я создаю RDD
с RDD[String]
по приведенному ниже коду,
val empRDD = spark
.sparkContext
.textFile("empInfo.txt")
Итак, мое требование - создать еще один RDD
с empnum, empname, emplocation (снова с RDD[String]
). Для этого я пробовал код ниже, поэтому я получаю RDD[String, String, String]
.
val empReqRDD = empRDD
.map(a=> a.split(","))
.map(x=> (x(0), x(1), x(2)))
Я также пробовал с Slice
, он дает мне RDD[Array(String)]
. Мой требуемый RDD должен быть RDD[String]
для перехода к требуемому Scala классу для выполнения некоторых операций.
Ожидаемый результат должен быть:
11,John,Paris
12,Daniel,UK
Может ли кто-нибудь помочь мне, как достичь ?