Question

Я пытаюсь получить файл из hdfs в pyspark, используя код Visual Studio ...

Я проверил через jps, все узлы только в активном состоянии.
мой путь к файлу в hadoop hadoop fs -cat emp / part-m-00000

1, А, АВС 2, В, АВС 3, С, ABC
, а core-site.xml - это fs.default.name HDFS: // локальный: 9000
загружаю вышеупомянутый файл через код Visual Studio в pyspark ..

но я получаю сообщение об ошибке типа

py4j.protocol.Py4JJavaError: Произошла ошибка при вызове o31.partitions. : org.apache.hadoop.mapred.InvalidInputException: входной путь не существует: hdfs: // localhost: 9000 / emp / part-m-00000

пожалуйста, помогите мне

я пытался указать путь hadoop

from pyspark.conf import SparkConf
from pyspark.context import SparkContext
from pyspark.sql import HiveContext
sc= SparkContext('local','example')
hc = HiveContext(sc)
tf1 = sc.textFile("hdfs://localhost:9000/emp/part-m-00000")
print(tf1.first())

мне нужно получить файл из hadoop

Входной путь не существует в pyspark для пути hadoop

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Входной путь не существует в pyspark для пути hadoop

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы