Как запускать R-скрипты с использованием spark-submit в кластере dataproc - PullRequest
0 голосов
/ 09 января 2019

Я создал кластер dataproc в GCP, и я хочу иметь возможность считывать некоторые данные из GCS (которые хранятся в кусте). Я могу сделать это, используя sparkR - что эквивалентно искровому корпусу для R.

Тем не менее, я хочу иметь возможность вызывать скрипт, сказав spark-submit test.R

Как загрузить эту библиотеку sparkR в мою R session

Вот мой сценарий -

.libPaths( c( .libPaths(), "/usr/lib/spark") )

print("Library paths ... ")

.libPaths()

print("session info...")

sessionInfo()

print("loading Spark R")

library(sparkR)

#sparkR.session()
print("done")

Это выходной журнал -

[1] "Library paths ... "
[1] "/usr/local/lib/R/site-library" "/usr/lib/R/site-library"      
[3] "/usr/lib/R/library"           
[1] "session info..."
R version 3.3.3 (2017-03-06)
Platform: x86_64-pc-linux-gnu (64-bit)
Running under: Debian GNU/Linux 9 (stretch)

locale:
 [1] LC_CTYPE=en_US.UTF-8       LC_NUMERIC=C              
 [3] LC_TIME=en_US.UTF-8        LC_COLLATE=en_US.UTF-8    
 [5] LC_MONETARY=en_US.UTF-8    LC_MESSAGES=en_US.UTF-8   
 [7] LC_PAPER=en_US.UTF-8       LC_NAME=C                 
 [9] LC_ADDRESS=C               LC_TELEPHONE=C            
[11] LC_MEASUREMENT=en_US.UTF-8 LC_IDENTIFICATION=C       

attached base packages:
[1] stats     graphics  grDevices utils     datasets  base     
[1] "loading Spark R"
Error in library(sparkR) : there is no package called ‘sparkR’
Execution halted

Как только все пройдет успешно, я могу продолжить и загрузить свои данные, используя -

df <- sql("select fields from DB.table limit 10")
createOrReplaceTempView(df, "df")

Подводя итог, я хочу добавить SparkR функциональности в мои R session.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...