Я создаю приложение pyspark, которое имеет модульный характер.Мой код выглядит следующим образом:
├── main.py
├── src
│ ├── __init__.py
│ ├── jobs
│ │ ├── __init__.py
│ │ └── logic.py
│ └── utils
│ ├── __init__.py
│ └── utility.py
Я установил полностью распределенный режим искры для обработки больших данных.
conf = SparkConf().setMaster(local_settings.SPARK_MASTER).setAppName(app_name) \
.set("spark.cores.max", max_cores)
Мой стартовый скрипт - main.py и мой проектЭто запуск скрипта Pycharm, потому что я хочу отладить логику или легко увидеть переменные.
В spark-submit
мы можем добавить --py-files
для дополнительных модулей.Однако, когда я запускаю main.py в Pycharm, у рабочих появляется ошибка о
ModuleNotFoundError: No module named 'src'
В Pycharm я установил переменные env ниже.
PYTHONUNBUFFERED=1;PYSPARK_PYTHON=/usr/bin/python3.6;PYSPARK_DRIVER_PYTHON=/usr/bin/python3.6;PYTHONPATH=/usr/local/project/spark_project:$PYTHONPATH;SPARK_HOME=/usr/local/spark
Даже я добавляюпуть к проекту PYTHONPATH, мой модуль 'src' все еще не найден.
Есть ли способ добавить дополнительные модули при использовании Pycharm.