Question

Я использую intellij, чтобы написать искровой код. И я хочу получить доступ к файлам, хранящимся в файловой системе hdfs на сервере. Как я могу получить доступ к файлу hdfs в искровом коде Scala, чтобы он мог быть загружен как кадр данных ??

prasanna kumar · Answer 1 · 12 сентября 2018

val spark = SparkSession.builder().appName("CSV_Import_Example")
           .config("spark.hadoop.yarn.resourcemanager.hostname","XXX")
           .config("spark.hadoop.yarn.resourcemanager.address","XXX:8032")
           .config("spark.yarn.access.namenodes", "hdfs://XXXX:8020,hdfs://XXXX:8020")
           .config("spark.yarn.stagingDir", "hdfs://XXXX:8020/user/hduser/")
           .getOrCreate()

Точкой входа во все функции Spark является класс SparkSession.

val sourceDF = spark.read.format("csv").option("header", "true").load("hdfs://192.168.1.1:8020/user/cloudera/example_csvfile.csv")

hdfs: //192.168.1.1: 8020 здесь осуществляется доступ к кластеру HDFS, а порт 8020 связан с namenode.

Как я могу прочитать CSV-файл, хранящийся в файловой системе hdfs на сервере в спарк, используя intellij в моей локальной системе?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как я могу прочитать CSV-файл, хранящийся в файловой системе hdfs на сервере в спарк, используя intellij в моей локальной системе?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы