Я пытаюсь объединить два набора данных, используя:
val newdata=employeename.lefeOuterJoin(deptnumber)
Но я получил эту ошибку:
command-2190037685634086:1: error: value lefeOuterJoin is not a member of org.apache.spark.rdd.RDD[String]
val newdata=employeename.lefeOuterJoin(deptnumber)
Я знаю, что должен преобразовать rdd в pairRDD, но яне очень уверен, что я должен сделать, чтобы конвертировать Rdd в pairRDD.
Вот что я сделал до сих пор.
val deptnumber=result1.map(x=>x(0)+","+x(1))
val employeename=result2.map(x=>x(7)+","+x(1))
val newdata=employeename.lefeOuterJoin(deptnumber)
вывод:
deptnumber: org.apache.spark.rdd.RDD[String] = MapPartitionsRDD[534] at map at command-3600182949525564:1
employeename: org.apache.spark.rdd.RDD[String] = MapPartitionsRDD[535] at map at command-3600182949525564:2
command-2190037685634086:1: error: value lefeOuterJoin is not a member of org.apache.spark.rdd.RDD[String]
val newdata=employeename.lefeOuterJoin(deptnumber)
Вывод моих двух переменных:
val deptnumber=result1.map(x=>x(0)+","+x(1)).take(10)
val employeename=result2.map(x=>x(7)+","+x(1)).take(10)
deptnumber: Array[String] = Array(10,Accounting, 20,Research, 30,Sales, 40,Operations)
employeename: Array[String] = Array(20,SMITH, 30,ALLEN, 30,WARD, 20,JONES, 30,BLAKE, 10,CLARK, 20,SCOTT, 10,KING, 30,TURNER, 20,ADAMS)
Я ожидаю мой результат как
(10(CLARK,Accounting),(20,(SMITH,Research)...)