Я не рекомендую устанавливать вручную pyspark
. Когда вы делаете это, вы получаете новую установку spark / pyspark, которая отличается от собственной установки Datapro c и не получает конфигурацию / tuning / classpath / et c. Это, вероятно, причина того, что поддержка Hive не работает.
Чтобы получить conda с правильно настроенным pyspark, я предлагаю выбрать ANACONDA
и JUPYTER
дополнительные компоненты на изображении 1.3
(по умолчанию) или более поздние.
Кроме того, на 1.4
и более поздних изображениях Mini-Conda является пользователем по умолчанию Python с предварительно настроенным pyspark. Вы можете pip / conda установить Jupyter самостоятельно, если вы будете sh.
См. https://cloud.google.com/dataproc/docs/tutorials/python-configuration
Также, как указывает @Jayadeep Jayaraman, дополнительный компонент Jupyter работает с Component Gateway , что означает, что вы можете использовать его по ссылке в консоли разработчика, в отличие от открытия портов в мир или туннелирования S SH.
tl / dr : я рекомендую эти флаги для вашего следующего кластера: --optional-components ANACONDA,JUPYTER --enable-component-gateway