Я создал кластер dataproc в GCP, и я хочу иметь возможность считывать некоторые данные из GCS (которые хранятся в кусте). Я могу сделать это, используя sparkR
- что эквивалентно искровому корпусу для R.
Тем не менее, я хочу иметь возможность вызывать скрипт, сказав spark-submit test.R
Как загрузить эту библиотеку sparkR
в мою R session
Вот мой сценарий -
.libPaths( c( .libPaths(), "/usr/lib/spark") )
print("Library paths ... ")
.libPaths()
print("session info...")
sessionInfo()
print("loading Spark R")
library(sparkR)
#sparkR.session()
print("done")
Это выходной журнал -
[1] "Library paths ... "
[1] "/usr/local/lib/R/site-library" "/usr/lib/R/site-library"
[3] "/usr/lib/R/library"
[1] "session info..."
R version 3.3.3 (2017-03-06)
Platform: x86_64-pc-linux-gnu (64-bit)
Running under: Debian GNU/Linux 9 (stretch)
locale:
[1] LC_CTYPE=en_US.UTF-8 LC_NUMERIC=C
[3] LC_TIME=en_US.UTF-8 LC_COLLATE=en_US.UTF-8
[5] LC_MONETARY=en_US.UTF-8 LC_MESSAGES=en_US.UTF-8
[7] LC_PAPER=en_US.UTF-8 LC_NAME=C
[9] LC_ADDRESS=C LC_TELEPHONE=C
[11] LC_MEASUREMENT=en_US.UTF-8 LC_IDENTIFICATION=C
attached base packages:
[1] stats graphics grDevices utils datasets base
[1] "loading Spark R"
Error in library(sparkR) : there is no package called ‘sparkR’
Execution halted
Как только все пройдет успешно, я могу продолжить и загрузить свои данные, используя -
df <- sql("select fields from DB.table limit 10")
createOrReplaceTempView(df, "df")
Подводя итог, я хочу добавить SparkR
функциональности в мои R session
.