Как импортировать данные через соединение Spark в среду R из кластера? - PullRequest
0 голосов
/ 02 сентября 2018

Я перешел по этой ссылке, чтобы установить соединение со Spark и моим R-сервером.

Подключение ч / б R Studio Server Pro и куст на GCP

Я вижу свой фрейм данных, но не могу вызвать его в среду R. для запуска анализа. Может кто-нибудь предложить мне правильный путь?

library(sparklyr)
library(dplyr)
sparklyr::spark_install()
#config
Sys.setenv(SPARK_HOME="/usr/lib/spark")
config <- spark_config()
#connect
sc <- spark_connect(master="yarn-client",config = config,version="2.2.1")

Я вижу свою таблицу "rdt", но при вызове она говорит, что объект не найден.

rdt table

вот что я попробовал:

  data <- rdt

, который выдает ошибку следующим образом: Ошибка: объект 'rdt' не найден

тогда единственным способом было поместить файл непосредственно в кластер и установить рабочий каталог для его вызова (тогда это лучше цели). Я хочу назвать его, как мы обычно импортируем df, в данном случае из sparklyr подключение

    setwd("~/Directory")
    data2 <- read.csv("rdt.csv",header = TRUE)
    str(data2)
...