org.apache.hadoop.mapred.InvalidInputException: входной путь не существует: ошибка в Windows - PullRequest
0 голосов
/ 12 сентября 2018

Я использую Spark на компьютере с Windows. Я новичок и при создании RDD из файла tsv я столкнулся с этой проблемой.

    scala> val fileRDD= sc.textFile("D:/work/testdata/test.tsv")
fileRDD: org.apache.spark.rdd.RDD[String] = D:/work/testdata/test.tsv MapPartitionsRDD[7] at textFile at <console>:24

scala> fileRDD.first()
org.apache.hadoop.mapred.InvalidInputException: Input path does not exist: file:/D:/work/testdata/test.tsv
  at org.apache.hadoop.mapred.FileInputFormat.singleThreadedListStatus(FileInputFormat.java:287)
  at org.apache.hadoop.mapred.FileInputFormat.listStatus(FileInputFormat.java:229)
  at org.apache.hadoop.mapred.FileInputFormat.getSplits(FileInputFormat.java:315)
  at org.apache.spark.rdd.HadoopRDD.getPartitions(HadoopRDD.scala:200)
  at org.apache.spark.rdd.RDD$$anonfun$partitions$2.apply(RDD.scala:253)
  at org.apache.spark.rdd.RDD$$anonfun$partitions$2.apply(RDD.scala:251)
  at scala.Option.getOrElse(Option.scala:121)
  at org.apache.spark.rdd.RDD.partitions(RDD.scala:251)
  at org.apache.spark.rdd.MapPartitionsRDD.getPartitions(MapPartitionsRDD.scala:35)
  at org.apache.spark.rdd.RDD$$anonfun$partitions$2.apply(RDD.scala:253)
  at org.apache.spark.rdd.RDD$$anonfun$partitions$2.apply(RDD.scala:251)
  at scala.Option.getOrElse(Option.scala:121)
  at org.apache.spark.rdd.RDD.partitions(RDD.scala:251)
  at org.apache.spark.rdd.RDD$$anonfun$take$1.apply(RDD.scala:1337)
  at org.apache.spark.rdd.RDDOperationScope$.withScope(RDDOperationScope.scala:151)
  at org.apache.spark.rdd.RDDOperationScope$.withScope(RDDOperationScope.scala:112)
  at org.apache.spark.rdd.RDD.withScope(RDD.scala:363)
  at org.apache.spark.rdd.RDD.take(RDD.scala:1331)
  at org.apache.spark.rdd.RDD$$anonfun$first$1.apply(RDD.scala:1372)
  at org.apache.spark.rdd.RDDOperationScope$.withScope(RDDOperationScope.scala:151)
  at org.apache.spark.rdd.RDDOperationScope$.withScope(RDDOperationScope.scala:112)
  at org.apache.spark.rdd.RDD.withScope(RDD.scala:363)
  at org.apache.spark.rdd.RDD.first(RDD.scala:1371)
  ... 49 elided

Файл присутствует там, и я не использую Hadoop, запускаю Spark в локальном режиме. Любая помощь будет высоко ценится.

...