Шаг 1: Включите и запустите кластер Cloud Dataproc
На этом шаге вы создадите кластер Cloud Dataproc с именем «datascience», при этом записные книжки Jupyter будут инициализированы и запущены с помощью командной строки. (Примечание: пожалуйста, не используйте Cloud Shell , так как вы не сможете создать сокет-соединение из него на шаге 2.)
Самый простой подход - использовать все настройки по умолчанию для вашего кластера. Jupyter будет работать через порт 8123 вашего главного узла. Если у вас не установлены значения по умолчанию, на этом этапе вам будет предложено ввести зону для кластера. Поскольку вы будете подключаться к пользовательскому интерфейсу кластера, выберите зоны в ближайшем к вам регионе.
gcloud dataproc clusters create datascience \
--initialization-actions \
gs://dataproc-initialization-actions/jupyter/jupyter.sh \
Waiting on operation [projects/------/regions/global/operations/XXX-XXX-XXX-XXX-XXX].
Waiting for cluster creation operation...done.
Created tw[https://dataproc.googleapis.com/v1/projects/------/regions/global/clusters/datascience].
(Если вы предпочитаете использовать графический интерфейс пользователя, то такое же действие можно выполнить, следуя этим инструкциям .)
После завершения кластер Cloud Dataproc запущен и готов к подключению.
Для следующего шага вам необходимо знать имя хоста вашего главного компьютера Cloud Dataproc, а также зону, в которой был создан ваш экземпляр. Чтобы определить эту зону, введите в своем терминале следующую команду:
gcloud dataproc clusters list
Выход:
NAME WORKER_COUNT STATUS ZONE
datascience 2 RUNNING europe-west1-c
Имя хоста кластера - это имя кластера Cloud Dataproc, за которым следует суффикс -m. Например, если ваш кластер называется «my-cluster», имя master-host-name будет «my-cluster-m».
Шаг 2: Подключение к ноутбуку Jupyter
Вы будете использовать ssh-туннель от локального компьютера до сервера для подключения к ноутбуку . В зависимости от настроек сети вашего компьютера, этот шаг может занять некоторое время, чтобы получить право, поэтому прежде чем продолжить, убедитесь, что все работает, используя пользовательский интерфейс YARN. В браузере, который вы запустили, следуя инструкциям в облачной документации по кластеру веб-интерфейсов, перейдите по следующему URL-адресу.
http://datascience -m: 8088 /
После запуска туннеля подключитесь к внешнему IP-адресу ноутбука и порта. Порт по умолчанию - 8123.
http://datascience -m: 8123
Подробнее Подробнее Следуйте этому сообщению Google. НАЖМИТЕ МЕНЯ
наслаждаться.