Входной путь не существует в pyspark для пути hadoop - PullRequest
0 голосов
/ 23 апреля 2019

Я пытаюсь получить файл из hdfs в pyspark, используя код Visual Studio ...

  1. Я проверил через jps, все узлы только в активном состоянии.
  2. мой путь к файлу в hadoop hadoop fs -cat emp / part-m-00000

    1, А, АВС 2, В, АВС 3, С, ABC

  3. , а core-site.xml - это fs.default.name HDFS: // локальный: 9000

  4. загружаю вышеупомянутый файл через код Visual Studio в pyspark ..

но я получаю сообщение об ошибке типа

py4j.protocol.Py4JJavaError: Произошла ошибка при вызове o31.partitions. : org.apache.hadoop.mapred.InvalidInputException: входной путь не существует: hdfs: // localhost: 9000 / emp / part-m-00000

пожалуйста, помогите мне

я пытался указать путь hadoop

from pyspark.conf import SparkConf
from pyspark.context import SparkContext
from pyspark.sql import HiveContext
sc= SparkContext('local','example')
hc = HiveContext(sc)
tf1 = sc.textFile("hdfs://localhost:9000/emp/part-m-00000")
print(tf1.first())

мне нужно получить файл из hadoop

...