Ошибка импорта PySpark в Anaconda venv на Dataproc - PullRequest
1 голос
/ 28 января 2020

Я развернул кластер Datapro c с Анакондой в качестве дополнительного компонента. Я создал виртуальную среду. в анаконде и установил в нее RDkit. Теперь моя проблема в том, что когда я открываю python терминал и пытаюсь сделать это:

from pyspark import SparkContext

Выдает ошибку:

Traceback (последний вызов был последним): File "", строка 1, в ModuleNotFoundError: нет модуля с именем 'pyspark'

Я могу установить PySpark внутри venac Anaconda, и тогда он будет работать, но я хотел использовать предустановленный PySpark в Datapro c. Как решить эту проблему?

1 Ответ

0 голосов
/ 01 февраля 2020

Чтобы использовать PySpark Datapro c в новой среде Conda, вам необходимо установить пакет file:///usr/lib/spark/python внутри этой среды:

conda create -c rdkit -n rdkit-env rdkit
conda activate rdkit-env
sudo "${CONDA_PREFIX}/bin/pip" install -e "file:///usr/lib/spark/python"
...