Как передать дополнительные модули в pyspark используя Pycharm - PullRequest
0 голосов
/ 24 мая 2019

Я создаю приложение pyspark, которое имеет модульный характер.Мой код выглядит следующим образом:

├── main.py
├── src
│   ├── __init__.py
│   ├── jobs
│   │   ├── __init__.py
│   │   └── logic.py
│   └── utils
│       ├── __init__.py
│       └── utility.py

Я установил полностью распределенный режим искры для обработки больших данных.

conf = SparkConf().setMaster(local_settings.SPARK_MASTER).setAppName(app_name) \
        .set("spark.cores.max", max_cores) 

Мой стартовый скрипт - main.py и мой проектЭто запуск скрипта Pycharm, потому что я хочу отладить логику или легко увидеть переменные.

В spark-submit мы можем добавить --py-files для дополнительных модулей.Однако, когда я запускаю main.py в Pycharm, у рабочих появляется ошибка о

ModuleNotFoundError: No module named 'src'

В Pycharm я установил переменные env ниже.

PYTHONUNBUFFERED=1;PYSPARK_PYTHON=/usr/bin/python3.6;PYSPARK_DRIVER_PYTHON=/usr/bin/python3.6;PYTHONPATH=/usr/local/project/spark_project:$PYTHONPATH;SPARK_HOME=/usr/local/spark

Даже я добавляюпуть к проекту PYTHONPATH, мой модуль 'src' все еще не найден.

Есть ли способ добавить дополнительные модули при использовании Pycharm.

...