использование sparkr для подключения к удаленной автономной искре - PullRequest
0 голосов
/ 06 мая 2019

Я могу использовать свою автономную установку Spark на своей удаленной коробке следующим образом:

library(SparkR, lib.loc = c(file.path(Sys.getenv("SPARK_HOME"), "R", "lib")))
sparkR.session(master = "local[*]", sparkConfig = list(spark.driver.memory = "2g"))

Просто интересно, как я могу получить доступ к этой автономной установке Spark с удаленной машины.Я думаю, что порт 7077. Поэтому я в настоящее время пытаюсь:

library(SparkR)
sparkR.session(master = "spark://NameOfVM:7077", sparkConfig = list(spark.driver.memory = "2g"))

Прежде всего, я получаю сообщение об ошибке:

Spark not found in SPARK_HOME

Мне действительно нужно установить Spark на мойклиентская коробка, хотя она предназначена для запуска на удаленной машине?Немного смущает ... Во всяком случае, приведенная выше команда выглядит для установки Spark:

Installing to C:\Users\User1234\AppData\Local\Apache\Spark\Cache
DONE.
SPARK_HOME set to C:\Users\User1234\AppData\Local\Apache\Spark\Cache/spark-2.4.2-bin-hadoop2.7

Почему клиент удаленной автономной установки спарк требует установки спарк?

После этого я получаю:

Error in sparkR.sparkContext(master, appName, sparkHome, sparkConfigMap,  : 
  JVM is not ready after 10 seconds

1 Ответ

1 голос
/ 06 мая 2019

Хотя вам не нужно, чтобы Spark работал на локальном компьютере, вам нужна локальная установка, чтобы вы могли использовать механизм spark-submit для запуска приложения Spark.Отсюда необходимость в SPARK_HOME.

...