PySpark: Как я могу импортировать библиотеку GitHub в Databricks? - PullRequest
0 голосов
/ 23 февраля 2020

Я хотел бы использовать эту библиотеку для обнаружения аномалий в Databricks: iForest . Эту библиотеку нельзя установить через PyPi.

Как установить библиотеки из GitHub в Databricks? Я читал об использовании так называемого «яйца», но я не совсем понимаю, как его следует использовать.

1 Ответ

3 голосов
/ 23 февраля 2020

Вы можете клонировать репо и создать пакет Python, как описано здесь: https://github.com/titicaca/spark-iforest:

Шаг 2. Пакет pyspark-iforest и установка его через pip пропустите этот шаг, если вам не нужны python pkg

cd spark-iforest/python

python setup.py sdist

pip install dist/pyspark-iforest-<version>.tar.gz

Здесь вам нужны только две первые команды для генерации пакета, но вам нужно изменить вторую команду для генерации пакета egg вместо исходного дистрибутива:

python3 setup.py bdist_egg

Теперь вы найдете файл в /dist папка:

pyspark_iforest-2.4.0-py3.7.egg

Наконец, в Databricks выберите Создать> Библиотека и выберите Python Яйцо , чтобы загрузить сгенерированный файл. Более подробную информацию можно найти здесь .

...