Как я могу конвертировать rdd в pairRDD и объединить два набора данных - PullRequest
0 голосов
/ 12 октября 2019

Я пытаюсь объединить два набора данных, используя:

val newdata=employeename.lefeOuterJoin(deptnumber)

Но я получил эту ошибку:

 command-2190037685634086:1: error: value lefeOuterJoin is not a member of org.apache.spark.rdd.RDD[String]
val newdata=employeename.lefeOuterJoin(deptnumber)

Я знаю, что должен преобразовать rdd в pairRDD, но яне очень уверен, что я должен сделать, чтобы конвертировать Rdd в pairRDD.

Вот что я сделал до сих пор.

val deptnumber=result1.map(x=>x(0)+","+x(1))
val employeename=result2.map(x=>x(7)+","+x(1))
val newdata=employeename.lefeOuterJoin(deptnumber)

вывод:

deptnumber: org.apache.spark.rdd.RDD[String] = MapPartitionsRDD[534] at map at command-3600182949525564:1
employeename: org.apache.spark.rdd.RDD[String] = MapPartitionsRDD[535] at map at command-3600182949525564:2

command-2190037685634086:1: error: value lefeOuterJoin is not a member of org.apache.spark.rdd.RDD[String]
val newdata=employeename.lefeOuterJoin(deptnumber)

Вывод моих двух переменных:

val deptnumber=result1.map(x=>x(0)+","+x(1)).take(10)
val employeename=result2.map(x=>x(7)+","+x(1)).take(10)
deptnumber: Array[String] = Array(10,Accounting, 20,Research, 30,Sales, 40,Operations)
employeename: Array[String] = Array(20,SMITH, 30,ALLEN, 30,WARD, 20,JONES, 30,BLAKE, 10,CLARK, 20,SCOTT, 10,KING, 30,TURNER, 20,ADAMS)

Я ожидаю мой результат как

(10(CLARK,Accounting),(20,(SMITH,Research)...)
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...