Pyspark: проблемы чтения таблиц в кластере с помощью hdfs: \\ master: - PullRequest
0 голосов
/ 26 апреля 2020

Я инициализировал сеанс спарка следующим образом:

spark_session = SparkSession.builder \
                .appName('LSC_PROJECT') \
                .getOrCreate()

, затем я пытаюсь прочитать много таблиц следующим образом:

df = self.spark_session.read.\
            csv(path=WAV.PATH_FILES_WAV+'/*.txt', header=False, schema= data_structure, sep='\t').\
            withColumn("Filename", reverse(split(input_file_name(), "/")).getItem(0) ).\
            withColumn("duration", col("End") - col("Start"))

Проблема в том, что эта работа, когда я запустить его с помощью локального спарка, но когда я запускаю его на кластере, я получаю следующую ошибку:

Traceback (most recent call last):
  File "/home/user24/LSCproject/Main.py", line 42, in <module>
    wav.recording_annotation()
  File "/home/user24/LSCproject/wav_manipulation/wav.py", line 45, in recording_annotation
    csv(path='LSCproject/Database/audio_and_txt_files/*.txt', header=False, schema= data_structure, sep='\t').\
  File "/home/hadoop/spark/python/lib/pyspark.zip/pyspark/sql/readwriter.py", line 441, in csv
  File "/home/hadoop/spark/python/lib/py4j-0.10.7-src.zip/py4j/java_gateway.py", line 1257, in __call__
  File "/home/hadoop/spark/python/lib/pyspark.zip/pyspark/sql/utils.py", line 69, in deco
pyspark.sql.utils.AnalysisException: u'Path does not exist: hdfs://master:9000/user/user24/LSCproject/Database/audio_and_txt_files/*.txt;'

Любые указания или рекомендации очень приветствуются!

Обновление:

Вывод uning / user / user24 / LSCproject / Database / вместо WAV.PATH_FILES_WAV + '/ .txt *

Traceback (most recent call last):
  File "/home/user24/LSCproject/Main.py", line 42, in <module>
    wav.recording_annotation()
  File "/home/user24/LSCproject/wav_manipulation/wav.py", line 45, in recording_annotation
    csv(path='/user/user24/LSCproject/Database/', header=False, schema= data_structure, sep='\t').\
  File "/home/hadoop/spark/python/lib/pyspark.zip/pyspark/sql/readwriter.py", line 441, in csv
  File "/home/hadoop/spark/python/lib/py4j-0.10.7-src.zip/py4j/java_gateway.py", line 1257, in __call__
  File "/home/hadoop/spark/python/lib/pyspark.zip/pyspark/sql/utils.py", line 69, in deco
pyspark.sql.utils.AnalysisException: u'Path does not exist: hdfs://master:9000/user/user24/LSCproject/Database;'

1 Ответ

0 голосов
/ 26 апреля 2020

В исключительном сообщении говорится, что HDFS-путь не существует. Добавьте правильный HDFS-путь и повторите попытку.

Path does not exist: hdfs://master:9000/user/user24/LSCproject/Database
Traceback (most recent call last):
  File "/home/user24/LSCproject/Main.py", line 42, in <module>
    wav.recording_annotation()
  File "/home/user24/LSCproject/wav_manipulation/wav.py", line 45, in recording_annotation
    csv(path='/user/user24/LSCproject/Database/', header=False, schema= data_structure, sep='\t').\
  File "/home/hadoop/spark/python/lib/pyspark.zip/pyspark/sql/readwriter.py", line 441, in csv
  File "/home/hadoop/spark/python/lib/py4j-0.10.7-src.zip/py4j/java_gateway.py", line 1257, in __call__
  File "/home/hadoop/spark/python/lib/pyspark.zip/pyspark/sql/utils.py", line 69, in deco
pyspark.sql.utils.AnalysisException: u'Path does not exist: hdfs://master:9000/user/user24/LSCproject/Database;'
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...