Модуль воздушного потокаNotFoundError: нет модуля с именем «pyspark» - PullRequest
1 голос
/ 20 сентября 2019

Я установил Airflow на моей машине, которая работает хорошо, и у меня также есть локальная искра (которая тоже работает).Я хочу использовать поток воздуха, чтобы организовать две задачи искр: task_spark_datatransform >> task_spark_model_reco.Два модуля pyspark, связанные с этими двумя задачами, протестированы и хорошо работают под искрой.

Я также создаю очень простой Airflow Dag, используя bashOperator* для запуска каждой искровой задачи.Например, для задания task_spark_datatransform у меня есть:

task_spark_datatransform = BashOperator (task_id = 'task_spark_datatransform', bash_command = spark_home + 'spark-submit --master local [*]' + srcDir + 'dataprep.py'),
where, in my case, spark_home = '/usr/bin/spark/bin/'

* Как указано в нескольких серьезных уроках по этому же предмету.

Вопрос: Почему Airflow не распознает pyspark?

Журнал:

[2019-09-20 10:21:21 +0200] [5945] [INFO] Worker exiting (pid: 5945)
[2019-09-20 10:21:51 +0200] [5554] [INFO] Handling signal: ttin
[2019-09-20 10:21:51 +0200] [6128] [INFO] Booting worker with pid: 6128
[2019-09-20 10:21:51,609] {__init__.py:51} INFO - Using executor SequentialExecutor
[2019-09-20 10:21:52,021] {__init__.py:305} INFO - Filling up the DagBag from /home/ach/airflow/dags
[2019-09-20 10:21:52,026] {__init__.py:416} ERROR - Failed to import: /home/ach/airflow/dags/spark_af.py
Traceback (most recent call last):
  File "/home/ach/airflow/lib/python3.7/site-packages/airflow/models/__init__.py", line 413, in process_file
    m = imp.load_source(mod_name, filepath)
  File "/home/ach/airflow/lib/python3.7/imp.py", line 171, in load_source
    module = _load(spec)
  File "<frozen importlib._bootstrap>", line 696, in _load
  File "<frozen importlib._bootstrap>", line 677, in _load_unlocked
  File "<frozen importlib._bootstrap_external>", line 728, in exec_module
  File "<frozen importlib._bootstrap>", line 219, in _call_with_frames_removed
  File "/home/ach/airflow/dags/spark_af.py", line 3, in <module>
    import dataprep
  File "/home/ach/airflow/dags/dataprep.py", line 2, in <module>
    from pyspark.sql import SparkSession
ModuleNotFoundError: No module named 'pyspark'

1 Ответ

1 голос
/ 20 сентября 2019

Похоже, вы пропали без вести pyspark:

Запустите следующее:

pip install pyspark
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...