`import pyspark` работает в Jupyter, но не работает с оболочкой / скриптом python - PullRequest
0 голосов
/ 30 октября 2018

Я пытаюсь перенести pyspark код из jupyter блокнота в скрипт на python. Однако, когда я пытался использовать

from pyspark.sql import SparkSession

Я получил ошибку No module named 'pyspark'

  • Я попытался найти все python3 и python2 в системе, запустить их как оболочку и попытался импортировать pyspark в каждую оболочку. Тем не менее, у меня есть одинаковые No module named 'pyspark' в каждой оболочке

  • Когда я пытался import findspark с python3 / python2, я получил No module named 'findspark'

  • echo $PYTHONPATH и echo $SPARK_HOME возвращают пустую строку
  • Я попытался найти все spark-submit и запустить мой скрипт с ними вместо python3. Тем не менее, у меня есть ошибка для argparse использования

    File "/export/home/osvechkarenko/brdmp_10947/automation_001/py_dynamic_report.py", line 206
    if args.print:
                ^
    SyntaxError: invalid syntax
    

    Когда я использовал свой скрипт с python3 (без pyspark), он работал нормально.

1 Ответ

0 голосов
/ 30 октября 2018

Во-первых, убедитесь, что ваш интерпретатор Python идентичен для jupyter и shell через:

import sys
print(sys.executable)

Если это так, ваше ядро ​​jupyter дополнительно добавляет pyspark к пути python при запуске. Как отметил @Sraw, вы можете найти pyspark через pyspark.__file__ в вашей рабочей среде.

Вот краткий bash-скрипт о том, как pyspark можно вручную добавить в существующее ядро ​​jupyter под Ubuntu 16.10: link

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...