Установите Deploy-mode на кластер для pyspark от jupyter - PullRequest
0 голосов
/ 20 февраля 2019

Я установил кластер cloudera CDH с spark2 на 7 хостах (2 matsers, 4 рабочих и 1 ребро)

Я установил сервер Jupyter на краевом узле, я хочу настроить pyspark для запуска накластерный режим, я запускаю это на ноутбуке

os.environ ['PYSPARK_SUBMIT_ARGS'] = '- главная пряжа --deploy-mode = кластер pyspark-shell'

Это дает мне "Ошибка: режим развертывания кластера не применим к оболочкам Spark. "

Может кто-нибудь мне помочь с этим?

Спасибо

Ответы [ 2 ]

0 голосов
/ 19 марта 2019

Основное обновление.

I.Успешно развернуть концентратор jupyter с помощью cdh5.13, он работает без проблем.

Одна вещь, на которую следует обратить внимание, это установить как язык по умолчанию Python 3, с Python 2 несколько заданий не будут выполнены из-за несовместимости.с пакетом cloudera

0 голосов
/ 20 февраля 2019

Ответ здесь вы не можете.Во-первых, потому что настроенный Юпитер за кулисами запускает сеанс оболочки pyspark.Который вы не можете запустить в кластерном режиме.

Одной душой, о которой я думаю в вашей проблеме, может быть Ливий + магия искры + юпитер

Где Ливий может работать в режиме пряжи и обслуживать запрос на работу как RESTзвонки.Spark_magic находится на jupyter.

Вы можете перейти по ссылке ниже для получения дополнительной информации об этом https://blog.chezo.uno/livy-jupyter-notebook-sparkmagic-powerful-easy-notebook-for-data-scientist-a8b72345ea2d

...