Question

Я пытаюсь соединить три разных RDD на спарк, но выдает ошибку

val name= sc.textFile("/user/kumarrupesh2389619/EmployeeName.csv")
val namepairRDD= name.map(x => (x.split(",")(0), x.split(",")(1)))

val manger= sc.textFile("/user/kumarrupesh2389619/Employeemanager.csv")
val mangerpairRDD= manger.map(x => (x.split(",")(0), x.split(",")(1)))

val salary= sc.textFile("/user/kumarrupesh2389619/Employeesalary.csv")
val salarypairRDD= salary.map(x => (x.split(",")(0), x.split(",")(1)))

val joineddata=namepairRDD.join(mangerpairRDD).join(salarypairRDD)

ошибка: -

org.apache.hadoop.mapred.InvalidInputException: Input path does not exist: hdfs://ip-172-31-35-141.ec2.internal:8020/user/kumarrupesh2389619/Employeemanager.csv
        at org.apache.hadoop.mapred.FileInputFormat.singleThreadedListStatus(FileInputFormat.java:287)
        at org.apache.hadoop.mapred.FileInputFormat.listStatus(FileInputFormat.java:229)

SPARK PAIRED RDD JOIN

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

SPARK PAIRED RDD JOIN

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы