Я пытаюсь получить файл из hdfs в pyspark, используя код Visual Studio ...
- Я проверил через jps, все узлы только в активном состоянии.
мой путь к файлу в hadoop
hadoop fs -cat emp / part-m-00000
1, А, АВС
2, В, АВС
3, С, ABC
, а core-site.xml - это
fs.default.name
HDFS: // локальный: 9000
загружаю вышеупомянутый файл через код Visual Studio в pyspark ..
но я получаю сообщение об ошибке типа
py4j.protocol.Py4JJavaError: Произошла ошибка при вызове o31.partitions.
: org.apache.hadoop.mapred.InvalidInputException: входной путь не существует: hdfs: // localhost: 9000 / emp / part-m-00000
пожалуйста, помогите мне
я пытался указать путь hadoop
from pyspark.conf import SparkConf
from pyspark.context import SparkContext
from pyspark.sql import HiveContext
sc= SparkContext('local','example')
hc = HiveContext(sc)
tf1 = sc.textFile("hdfs://localhost:9000/emp/part-m-00000")
print(tf1.first())
мне нужно получить файл из hadoop