Spark читать CSV-файл, представленный --files - PullRequest
0 голосов
/ 28 ноября 2018

Я отправляю задание Spark на удаленный спарк-кластер на пряже и включаю файл в spark-submit --file Я хочу прочитать отправленный файл как фрейм данных.Но я не совсем понимаю, как это сделать, не помещая файл в HDFS:

spark-submit \
--class com.Employee \
--master yarn \
--files /User/employee.csv \
--jars SomeJar.jar

spark: SparkSession = // create the Spark Session
val df = spark.read.csv("/User/employee.csv")

Ответы [ 2 ]

0 голосов
/ 13 декабря 2018
spark.sparkContext.addFile("file:///your local file path ")

Добавьте файл, используя addFile, чтобы он мог быть доступен на ваших рабочих узлах.Поскольку вы хотите читать локальный файл в режиме кластера.

Возможно, вам потребуется внести небольшие изменения в соответствии с scala и используемой версией spark.

0 голосов
/ 28 ноября 2018

employee.csv находится в рабочем каталоге исполнителя, просто читая его следующим образом:

val df = spark.read.csv("employee.csv")
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...