Для дальнейшего использования: R studio - Dataproc -
В этом конкретном случае я отправляю данные из HiveDB в Spark и использую пакет sparklyr для установления соединения на сервере R studio в том же кластере. Вы также можете проверить соединение "Hive-R-JDBC", если хотите напрямую подключиться к Hive.
GCP предлагает R studio server PRO на вычислительном движке, но это не является экономически эффективным. Я использовал это в течение приблизительно 8 часов и был выставлен счет приблизительно 21 $. 5 дней в неделю, и вы смотрите на> 100 долларов. Я надеюсь, что следующие шаги помогут вам:
R studio работает через порт 8787. Вам нужно будет добавить этот порт в сетевое правило брандмауэра. Прокрутите к значку гамбургера в вашем GCP и прокрутите вниз до VPC Networks, нажмите на правила брандмауэра и добавьте 8787. После этого оно должно выглядеть следующим образом
Настройте кластер dataproc в соответствии с вашими требованиями и местоположением. А затем либо SSH в окно браузера, либо запустить через командную строку gcloud. Просто нажмите клавишу ввода, когда появится запрос на запуск в облачной оболочке.
Как только вы окажетесь в командной строке window / gcloud, добавьте пользователя для R-сервера:
sudo adduser rstudio
Установите пароль для него. Помни это.
Далее перейдите на веб-сайт R studio, ссылка: https://dailies.rstudio.com/ и нажмите на Ubuntu для сервера R studio. Скопируйте ссылку адрес
Вернитесь к окну / командной строке и установите его. Вставьте адрес ссылки после sudo wget следующим образом:
sudo wget https://s3.amazonaws.com/rstudio-ide-build/server/trusty/amd64/rstudio-server-1.2.650-amd64.deb
Затем запустите:
sudo apt-get install gdebi-core
Далее: Обратите внимание, что это версия r по ссылке выше.
sudo gdebi rstudio-server-1.2.650-amd64.deb
Нажмите да, чтобы принять, и вы должны увидеть сообщение R сервер активен (работает).
Теперь перейдите на вкладку Compute Engine в GCP и скопируйте внешний IP-адрес вашего главного кластера (первый). Теперь откройте новый браузер и введите:
http://<yourexternalIPaddress>:8787
Это должно открыть сервер R studio, теперь введите используемый идентификатор как «rstudio» и пароль, который вы установили ранее. Теперь у вас есть R Studio Server, запущенный из вашего кластера данных.
** Улей **:
Вернитесь к терминалу и введите
beeline -u jdbc:hive2://localhost:10000/default -n *myusername*@*clustername-m* -d org.apache.hive.jdbc.HiveDriver
Мы импортируем данные в Hive из нашей HDFS, т.е. в облачное хранилище Google. Здесь мы просто копируем данные из нашей корзины в нашу таблицу улья. Введите команду:
CREATE EXTERNAL TABLE <giveatablename>
(location CHAR(1),
dept CHAR(1),
eid INT,
emanager VARCHAR(6))
ROW FORMAT DELIMITED FIELDS TERMINATED BY ','
LOCATION 'gs://<yourgooglestoragebucket>/<foldername>/<filename.csv>';
Теперь у вас есть таблица в Hive yourtablename с функциями -> location, dept, eid и emanager -> из CSV-файла в облачном хранилище google -> gs: / /
Теперь выйдите из улья (CTRL + Z) и введите:
ln -s /etc/hive/conf/hive-site.xml /etc/spark/conf/hive-site.xml
Это ссылка на ваш файл конфигурации в кусте, чтобы зажечь. Лучше сделать это, чем скопировать файлы в папку. Как может быть путаница.
Искра :
Войдите в spark-shell, набрав:
spark-shell
Теперь введите:
spark.catalog.listTables.show
Чтобы проверить, есть ли таблица из вашего HiveDb или нет.
Теперь перейдите в браузер сервера Rstudio и выполните следующие команды:
library(sparklyr)
library(dplyr)
sparklyr::spark_install()
#config
Sys.setenv(SPARK_HOME="/usr/lib/spark")
config <- spark_config()
#connect
sc <- spark_connect(master="yarn-client",config = config,version="2.2.1")
Теперь с правой стороны вы увидите новую вкладку "Соединение" рядом с Окружением. Это подключение к вашему искровому кластеру, щелкните по нему, и оно должно показать yourtablename из Hive.