Как получить промежуточный каталог при запуске Spark? - PullRequest
0 голосов
/ 04 мая 2020

Мой вопрос точно такой же, как этот Как получить путь к загруженному файлу

Но когда я пытаюсь это сделать, я получаю другие результаты.

Я вижу мой файл загружен в промежуточный каталог в журнале как

20/05/04 15:30:17 INFO Client: Uploading resource file:/home1/irteam/fileName.txt -> hdfs://aaa.aaa.aaa:8020/user/irteam/.sparkStaging/application_1554781627650_743169/fileName.txt

Но когда я пытаюсь получить его с помощью

spark.read.text(SparkFiles.get('fileName.txt'))

, я получаю сообщение об ошибке как

Input path does not exist: hdfs://aaa.aaa.aaa:8020/tmp/spark-d5854059-2389-4623-a5ce-431789d81bd3/ ...

Это не промежуточный каталог. Как я могу получить это?

Спасибо, что прочитали мой вопрос.

1 Ответ

0 голосов
/ 04 мая 2020

После загрузки файла в каталог tmp. Spark может получить к нему доступ, как в локальной среде, поэтому для чтения файла вы можете просто попробовать:

spark.read.text('filename.txt')
#incase of csv file
spark.read.csv('filename.csv')

Надеюсь, это поможет.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...