настройка pyspark с ноутбуком jupyter - PullRequest
0 голосов
/ 14 декабря 2018

Я относительно новичок в использовании pyspark и унаследовал конвейер данных, встроенный в spark.Есть основной сервер, к которому я подключаюсь и выполняю через терминал задание spark с использованием spark-submit, которое затем выполняется через мастер-пряжу в режиме развертывания кластера.

Вот функция, которую я использую для запуска процесса:

spark-submit --master yarn --num-executors 8 --executor-cores 3 --executor-memory 6g --name program_1 --deploy-mode cluster /home/hadoop/data-server/conf/blah/spark/1_program.py

Процесс работает отлично, но я очень заинтересован в настройке ноутбука python / jupyter для выполнения команд в подобном распределенном порядке.Я могу запустить сеанс искры в ноутбуке, но не могу запустить его через мастер-нить и кластеры.Процесс просто выполняется на одном экземпляре и очень медленный.Я попытался запустить ноутбук Jupyter с конфигурацией, похожей на spark-submit, но не получилось.

Я читал несколько постов в блоге о запуске python notebook с конфигурацией, когда я запускаю свою версию spark-submit.Мои попытки не работают.

Хотел узнать, может ли кто-нибудь помочь мне с запуском python с распределенной искрой и / или помочь мне найти необходимые входные данные для выполнения блокнота jupyter, аналогичного spark-submit.

Моя версия Python - 2.7, версия spark - 2.2.1.

...