Для среды Sandbox, подобной вашей, образ песочницы создается в ОС Linux (CentOS).Ноутбук Zeppelin указывает, по всей вероятности, на установку Python, которая поставляется вместе с каждой ОС Linux.Если вы хотите иметь собственную установку Python и свой собственный набор библиотек для анализа данных, таких как в стеке SciPy.Вам необходимо установить Anaconda на вашу виртуальную машину.Ваша виртуальная машина должна быть подключена к Интернету, чтобы вы могли загрузить и установить пакет Anaconda для тестирования.
Затем вы можете указать Zeppelin в каталог anaconda по следующему пути: / home / user / anaconda3 / bin / python где user - ваше имя пользователя
Конфигурация Zeppelin также подтверждает тот факт, что он использует установку Python по умолчанию на /usr/bin/python
.Вы можете просмотреть его документацию для получения дополнительной информации
ОБНОВЛЕНИЕ
Привет, Джозеф, Установки Spark по умолчанию используют интерпретатор Python и библиотеки Python, которые были установлены наваша ОС.Структура папок, которую вы показали, говорит только о расположении модуля PySpark.Этот модуль представляет собой библиотеку, подобную Pandas ior NumPy.
Что вы можете сделать, это установить стек SciPy [NumPy, Pandas, MatplotLib и т. Д.] С помощью команды pip install package name
и импортировать эти библиотеки непосредственно в блокнот Zeppelin.
Используйте команду whereis python
в терминале вашего snadbox, результат даст вам что-то следующее /usr/bin/python /usr/bin/python2.7 ....
В вашей конфигурации Zeppelin для свойства zeppelin.pyspark.python
вы можете установитьпервое значение из выхода предыдущей команды, т.е. /usr/bin/python
.Так что теперь все библиотеки, которые вы установили с помощью команды pip install
, будут доступны для вас в zeppelin.
Этот процесс будет работать только для вашей среды Sandbox.В реальном производственном кластере администратору необходимо установить все эти библиотеки на все узлы кластера Spark.