SPARK PAIRED RDD JOIN - PullRequest
       18

SPARK PAIRED RDD JOIN

0 голосов
/ 03 сентября 2018

Я пытаюсь соединить три разных RDD на спарк, но выдает ошибку

val name= sc.textFile("/user/kumarrupesh2389619/EmployeeName.csv")
val namepairRDD= name.map(x => (x.split(",")(0), x.split(",")(1)))

val manger= sc.textFile("/user/kumarrupesh2389619/Employeemanager.csv")
val mangerpairRDD= manger.map(x => (x.split(",")(0), x.split(",")(1)))

val salary= sc.textFile("/user/kumarrupesh2389619/Employeesalary.csv")
val salarypairRDD= salary.map(x => (x.split(",")(0), x.split(",")(1)))

val joineddata=namepairRDD.join(mangerpairRDD).join(salarypairRDD)

ошибка: -

org.apache.hadoop.mapred.InvalidInputException: Input path does not exist: hdfs://ip-172-31-35-141.ec2.internal:8020/user/kumarrupesh2389619/Employeemanager.csv
        at org.apache.hadoop.mapred.FileInputFormat.singleThreadedListStatus(FileInputFormat.java:287)
        at org.apache.hadoop.mapred.FileInputFormat.listStatus(FileInputFormat.java:229)
...