Доступ к файлам паркета HDFS с помощью SparkR в Windows - PullRequest
0 голосов
/ 03 мая 2018

Из R или RStudio под Windows я пытаюсь получить доступ к файлу паркета в удаленном кластере Hadoop:

Sys.setenv(SPARK_HOME = "C:\\Users\\me\\Hadoop\\spark-2.3.0-bin-hadoop2.7", HADOOP_HOME = "/opt/hadoop-2.9.0", SPARK_HOME_VERSION="2.3.0" )

.libPaths(c(file.path(Sys.getenv("SPARK_HOME" ), "R", "lib" ), .libPaths()))
library(SparkR)
sc <- sparkR.session(enableHiveSupport = FALSE,master = "spark://10.123.45.67:7077", sparkConfig = list(spark.driver.memory = "2g" ))

patient <- read.parquet("pseudo/patient" )

Я знаю, что соединение прошло нормально, так как задание отображается в веб-интерфейсе Spark. Но когда read.parquet выполняется, я получаю следующую ошибку от SparkR:

Error: Error in parquet : analysis error - Path does not exist: file:/C:/Users/me/Documents/pseudo/patient;
  1. Что происходит? Что я забыл?

  2. если я использую SparkR из кластера, мне нужно подключиться как пользователь hadoop в другом, чтобы увидеть данные в HDFS. Очевидно, в приведенном выше коде я не подключился как hadoop. Как определить права доступа к данным для других пользователей?

...