Как установить ноутбук Jupyter на Google Dataproc - PullRequest
0 голосов
/ 21 января 2019

Я уже создал кластер из 3 узлов на dataproc.

Теперь я не хочу удалять кластер и повторно создавать действия инициализации для установки jupyter.

Кто-нибудь может сказать мне, что какустановить jupyter в существующий кластер dataproc?

-Revan

1 Ответ

0 голосов
/ 21 января 2019

Шаг 1: Включите и запустите кластер Cloud Dataproc

На этом шаге вы создадите кластер Cloud Dataproc с именем «datascience», при этом записные книжки Jupyter будут инициализированы и запущены с помощью командной строки. (Примечание: пожалуйста, не используйте Cloud Shell , так как вы не сможете создать сокет-соединение из него на шаге 2.)

Самый простой подход - использовать все настройки по умолчанию для вашего кластера. Jupyter будет работать через порт 8123 вашего главного узла. Если у вас не установлены значения по умолчанию, на этом этапе вам будет предложено ввести зону для кластера. Поскольку вы будете подключаться к пользовательскому интерфейсу кластера, выберите зоны в ближайшем к вам регионе.

gcloud dataproc clusters create datascience \
--initialization-actions \
    gs://dataproc-initialization-actions/jupyter/jupyter.sh \


Waiting on operation [projects/------/regions/global/operations/XXX-XXX-XXX-XXX-XXX].
Waiting for cluster creation operation...done.                                                                                                                     
Created tw[https://dataproc.googleapis.com/v1/projects/------/regions/global/clusters/datascience].

(Если вы предпочитаете использовать графический интерфейс пользователя, то такое же действие можно выполнить, следуя этим инструкциям .)

После завершения кластер Cloud Dataproc запущен и готов к подключению.

Для следующего шага вам необходимо знать имя хоста вашего главного компьютера Cloud Dataproc, а также зону, в которой был создан ваш экземпляр. Чтобы определить эту зону, введите в своем терминале следующую команду:

gcloud dataproc clusters list

Выход:

    NAME      WORKER_COUNT  STATUS  ZONE
datascience 2     RUNNING europe-west1-c

Имя хоста кластера - это имя кластера Cloud Dataproc, за которым следует суффикс -m. Например, если ваш кластер называется «my-cluster», имя master-host-name будет «my-cluster-m».

Шаг 2: Подключение к ноутбуку Jupyter

Вы будете использовать ssh-туннель от локального компьютера до сервера для подключения к ноутбуку . В зависимости от настроек сети вашего компьютера, этот шаг может занять некоторое время, чтобы получить право, поэтому прежде чем продолжить, убедитесь, что все работает, используя пользовательский интерфейс YARN. В браузере, который вы запустили, следуя инструкциям в облачной документации по кластеру веб-интерфейсов, перейдите по следующему URL-адресу.

http://datascience -m: 8088 /

После запуска туннеля подключитесь к внешнему IP-адресу ноутбука и порта. Порт по умолчанию - 8123.

http://datascience -m: 8123

Подробнее Подробнее Следуйте этому сообщению Google. НАЖМИТЕ МЕНЯ

наслаждаться.

...