Подключение ч / б R Studio Server Pro и куст на GCP - PullRequest
0 голосов
/ 14 мая 2018

Это не вопрос, связанный с программированием, прошу вас об этом.

В настоящее время я настроил два экземпляра на GCP - один - R Studio Server PRO, а другой - мой кластер с Hive DB. Я хочу получить доступ к базе данных в улье с моим сервером rstudio pro. Оба работают на GCP.

Может кто-нибудь, пожалуйста, наставить меня на это? (Я видел статьи по подключению hive на рабочем столе rstudio --->, а также по запуску rstudio-сервера из кластера искр, но мне нужно связать Rstudio server PRO с базой данных hive, обе работают на GCP: O)

1 Ответ

0 голосов
/ 21 мая 2018

Для дальнейшего использования: R studio - Dataproc -

В этом конкретном случае я отправляю данные из HiveDB в Spark и использую пакет sparklyr для установления соединения на сервере R studio в том же кластере. Вы также можете проверить соединение "Hive-R-JDBC", если хотите напрямую подключиться к Hive.

GCP предлагает R studio server PRO на вычислительном движке, но это не является экономически эффективным. Я использовал это в течение приблизительно 8 часов и был выставлен счет приблизительно 21 $. 5 дней в неделю, и вы смотрите на> 100 долларов. Я надеюсь, что следующие шаги помогут вам:

R studio работает через порт 8787. Вам нужно будет добавить этот порт в сетевое правило брандмауэра. Прокрутите к значку гамбургера в вашем GCP и прокрутите вниз до VPC Networks, нажмите на правила брандмауэра и добавьте 8787. После этого оно должно выглядеть следующим образом enter image description here

Настройте кластер dataproc в соответствии с вашими требованиями и местоположением. А затем либо SSH в окно браузера, либо запустить через командную строку gcloud. Просто нажмите клавишу ввода, когда появится запрос на запуск в облачной оболочке. enter image description here

Как только вы окажетесь в командной строке window / gcloud, добавьте пользователя для R-сервера:

 sudo adduser rstudio 

Установите пароль для него. Помни это.

Далее перейдите на веб-сайт R studio, ссылка: https://dailies.rstudio.com/ и нажмите на Ubuntu для сервера R studio. Скопируйте ссылку адрес enter image description here

Вернитесь к окну / командной строке и установите его. Вставьте адрес ссылки после sudo wget следующим образом:

sudo wget https://s3.amazonaws.com/rstudio-ide-build/server/trusty/amd64/rstudio-server-1.2.650-amd64.deb

Затем запустите:

sudo apt-get install gdebi-core

Далее: Обратите внимание, что это версия r по ссылке выше.

sudo gdebi rstudio-server-1.2.650-amd64.deb

Нажмите да, чтобы принять, и вы должны увидеть сообщение R сервер активен (работает). Теперь перейдите на вкладку Compute Engine в GCP и скопируйте внешний IP-адрес вашего главного кластера (первый). Теперь откройте новый браузер и введите:

http://<yourexternalIPaddress>:8787 

Это должно открыть сервер R studio, теперь введите используемый идентификатор как «rstudio» и пароль, который вы установили ранее. Теперь у вас есть R Studio Server, запущенный из вашего кластера данных.

** Улей **:

Вернитесь к терминалу и введите

     beeline -u jdbc:hive2://localhost:10000/default -n *myusername*@*clustername-m* -d org.apache.hive.jdbc.HiveDriver  

enter image description here

Мы импортируем данные в Hive из нашей HDFS, т.е. в облачное хранилище Google. Здесь мы просто копируем данные из нашей корзины в нашу таблицу улья. Введите команду:

 CREATE EXTERNAL TABLE <giveatablename>
    (location CHAR(1),
     dept CHAR(1),
     eid INT,
     emanager VARCHAR(6))
 ROW FORMAT DELIMITED FIELDS TERMINATED BY ','
 LOCATION 'gs://<yourgooglestoragebucket>/<foldername>/<filename.csv>';

Теперь у вас есть таблица в Hive yourtablename с функциями -> location, dept, eid и emanager -> из CSV-файла в облачном хранилище google -> gs: / /

Теперь выйдите из улья (CTRL + Z) и введите:

    ln -s /etc/hive/conf/hive-site.xml /etc/spark/conf/hive-site.xml

Это ссылка на ваш файл конфигурации в кусте, чтобы зажечь. Лучше сделать это, чем скопировать файлы в папку. Как может быть путаница.

Искра :

Войдите в spark-shell, набрав:

     spark-shell 

Теперь введите:

    spark.catalog.listTables.show 

Чтобы проверить, есть ли таблица из вашего HiveDb или нет.

enter image description here

Теперь перейдите в браузер сервера Rstudio и выполните следующие команды:

  library(sparklyr)
  library(dplyr)
  sparklyr::spark_install()
  #config
  Sys.setenv(SPARK_HOME="/usr/lib/spark")
  config <- spark_config()
  #connect
  sc <- spark_connect(master="yarn-client",config = config,version="2.2.1")

enter image description here

Теперь с правой стороны вы увидите новую вкладку "Соединение" рядом с Окружением. Это подключение к вашему искровому кластеру, щелкните по нему, и оно должно показать yourtablename из Hive.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...