Я инициализировал сеанс спарка следующим образом:
spark_session = SparkSession.builder \
.appName('LSC_PROJECT') \
.getOrCreate()
, затем я пытаюсь прочитать много таблиц следующим образом:
df = self.spark_session.read.\
csv(path=WAV.PATH_FILES_WAV+'/*.txt', header=False, schema= data_structure, sep='\t').\
withColumn("Filename", reverse(split(input_file_name(), "/")).getItem(0) ).\
withColumn("duration", col("End") - col("Start"))
Проблема в том, что эта работа, когда я запустить его с помощью локального спарка, но когда я запускаю его на кластере, я получаю следующую ошибку:
Traceback (most recent call last):
File "/home/user24/LSCproject/Main.py", line 42, in <module>
wav.recording_annotation()
File "/home/user24/LSCproject/wav_manipulation/wav.py", line 45, in recording_annotation
csv(path='LSCproject/Database/audio_and_txt_files/*.txt', header=False, schema= data_structure, sep='\t').\
File "/home/hadoop/spark/python/lib/pyspark.zip/pyspark/sql/readwriter.py", line 441, in csv
File "/home/hadoop/spark/python/lib/py4j-0.10.7-src.zip/py4j/java_gateway.py", line 1257, in __call__
File "/home/hadoop/spark/python/lib/pyspark.zip/pyspark/sql/utils.py", line 69, in deco
pyspark.sql.utils.AnalysisException: u'Path does not exist: hdfs://master:9000/user/user24/LSCproject/Database/audio_and_txt_files/*.txt;'
Любые указания или рекомендации очень приветствуются!
Обновление:
Вывод uning / user / user24 / LSCproject / Database / вместо WAV.PATH_FILES_WAV + '/ .txt *
Traceback (most recent call last):
File "/home/user24/LSCproject/Main.py", line 42, in <module>
wav.recording_annotation()
File "/home/user24/LSCproject/wav_manipulation/wav.py", line 45, in recording_annotation
csv(path='/user/user24/LSCproject/Database/', header=False, schema= data_structure, sep='\t').\
File "/home/hadoop/spark/python/lib/pyspark.zip/pyspark/sql/readwriter.py", line 441, in csv
File "/home/hadoop/spark/python/lib/py4j-0.10.7-src.zip/py4j/java_gateway.py", line 1257, in __call__
File "/home/hadoop/spark/python/lib/pyspark.zip/pyspark/sql/utils.py", line 69, in deco
pyspark.sql.utils.AnalysisException: u'Path does not exist: hdfs://master:9000/user/user24/LSCproject/Database;'