почему я не могу открыть локальный файл в Spark scala на EMR - PullRequest
0 голосов
/ 09 января 2020

Я использую AWS EMR на работе. Если я запускаю оболочку spark, я могу запускать команды scala, но не могу читать в локальном файле.

Например:

scala> val citi = spark.read.textFile("CitiGroup2006")
org.apache.spark.sql.AnalysisException: Path does not exist: hdfs://ip-10-99-99-99.ec2.internal:8020/user/hadoop/CitiGroup2006;

Я попытался ввести полный путь к файлу, но получаю ту же ошибку. Файл находится в том же каталоге, где я запустил оболочку spark. Однако он работает для загрузки scala файла

:load hello.scala

Почему «загрузка» работает, а не spark.read.textFile?

1 Ответ

1 голос
/ 09 января 2020

не так сильно на scala. но это похоже на spark.read.file чтение из HDFS, и я думаю, что ваш файл находится на локальном EMR. Вы можете увидеть файлы в HDFS, используя команду: $ hdfs dfs -ls и скопировать файлы с помощью -put check имел oop скопировать папку локальной файловой системы в HDFS и имел oop -common / FileSystemShell

...