Использование Python с Zeppelin под интерпретатором Spark 2 - PullRequest
0 голосов
/ 30 мая 2018

Я развернул HDP: 2.6.4 на виртуальной машине

Я вижу, что spark2 не указывает на правильную папку python.Мои вопросы

1) Как я могу найти, где находится мой питон?

решение : введите whereis python, и вы получите список того, где он находится

2) Как я могу обновить существующие библиотеки Python и добавить новые библиотеки к этомупапка?Например, эквивалент «pip install numpy» для CLI.

  • Пока ничего не ясно

3) Как настроить Zeppelin Spark2 на указанную директорию, содержащую папку python, которую я могу обновить?- В Zeppelin есть небольшая кнопка «Изменить», с помощью которой я могу изменить путь к каталогу, содержащему python.

решение : перейти к интерпретатору в zeppelin, найти spark2 исделать так, чтобы zeppelin.pyspark.python указывал на то, где python уже есть.

Теперь, если вам нужен python 3.4+, есть целый ряд различных шагов, которые вы должны сделать, чтобы сначала получить python 3.4. + в HDP.песочница.

Спасибо,

1 Ответ

0 голосов
/ 30 мая 2018

Для среды Sandbox, подобной вашей, образ песочницы создается в ОС Linux (CentOS).Ноутбук Zeppelin указывает, по всей вероятности, на установку Python, которая поставляется вместе с каждой ОС Linux.Если вы хотите иметь собственную установку Python и свой собственный набор библиотек для анализа данных, таких как в стеке SciPy.Вам необходимо установить Anaconda на вашу виртуальную машину.Ваша виртуальная машина должна быть подключена к Интернету, чтобы вы могли загрузить и установить пакет Anaconda для тестирования.

Затем вы можете указать Zeppelin в каталог anaconda по следующему пути: / home / user / anaconda3 / bin / python где user - ваше имя пользователя

Конфигурация Zeppelin также подтверждает тот факт, что он использует установку Python по умолчанию на /usr/bin/python.Вы можете просмотреть его документацию для получения дополнительной информации

ОБНОВЛЕНИЕ

Привет, Джозеф, Установки Spark по умолчанию используют интерпретатор Python и библиотеки Python, которые были установлены наваша ОС.Структура папок, которую вы показали, говорит только о расположении модуля PySpark.Этот модуль представляет собой библиотеку, подобную Pandas ior NumPy.

Что вы можете сделать, это установить стек SciPy [NumPy, Pandas, MatplotLib и т. Д.] С помощью команды pip install package name и импортировать эти библиотеки непосредственно в блокнот Zeppelin.

Используйте команду whereis python в терминале вашего snadbox, результат даст вам что-то следующее /usr/bin/python /usr/bin/python2.7 ....

В вашей конфигурации Zeppelin для свойства zeppelin.pyspark.python вы можете установитьпервое значение из выхода предыдущей команды, т.е. /usr/bin/python.Так что теперь все библиотеки, которые вы установили с помощью команды pip install, будут доступны для вас в zeppelin.

Этот процесс будет работать только для вашей среды Sandbox.В реальном производственном кластере администратору необходимо установить все эти библиотеки на все узлы кластера Spark.

...