Jupyter ImportError: ни один модуль с именем py4j.protocol несмотря на то, что py4j не установлен - PullRequest
0 голосов
/ 12 октября 2018

Я прочитал несколько сообщений об ошибке, которую я вижу сейчас, когда импортирую pyspark, некоторые предлагают установить py4j , и я уже сделал, и все же я все еще вижу ошибку.

I am using a conda environment, here is the steps:
1. create a yml file and include the needed packages (including the py4j)
2. create a env based on the yml
3. create a kernel pointing to the env
4. start the kernel in Jupyter
5. running `import pyspark` throws error: ImportError: No module named py4j.protocol

1 Ответ

0 голосов
/ 13 октября 2018

Проблема решена добавлением раздела среды в kernel.json и точным указанием следующих переменных:

 "env": {
  "HADOOP_CONF_DIR": "/etc/spark2/conf/yarn-conf",
  "PYSPARK_PYTHON":"/opt/cloudera/parcels/Anaconda/bin/python",
  "SPARK_HOME": "/opt/cloudera/parcels/SPARK2",
  "PYTHONPATH": "/opt/cloudera/parcels/SPARK2/lib/spark2/python/lib/py4j-0.10.7-src.zip:/opt/cloudera/parcels/SPARK2/lib/spark2/python/",
  "PYTHONSTARTUP": "/opt/cloudera/parcels/SPARK2/lib/spark2/python/pyspark/shell.py",
  "PYSPARK_SUBMIT_ARGS": " --master yarn --deploy-mode client pyspark-shell"
 }
...