Я пытаюсь запустить программу pyspark, но получаю сообщение об ошибке:
python.exe: Ошибка при поиске спецификации модуля для pyspark.worker (ModuleNotFoundError: Нет модуляс именем 'pyspark')
SparkException: работнику Python не удалось подключиться обратно.
Код:
from pyspark.sql import SparkSession
from pyspark.sql import Row
import pyspark.sql.functions as func
spark = SparkSession\
.builder\
.appName("ReplaceNanByAverage")\
.config("spark.master", "local")\
.getOrCreate()
items = [(1,12),(1,float('Nan')),(1,14),(1,10),(2,22),(2,20),(2,float('Nan')),(3,300),
(3,float('Nan'))]
sc = spark.sparkContext
rdd = sc.parallelize(items)
itemsRdd = rdd.map(lambda x: Row(id=x[0], col1=int(x[1])))
df = itemsRdd.toDF()
Я испробовал множество предлагаемых решений:
- Понижение версии Spark
- Использование findspark.init ()
- Использование findspark.init ('/ path / to / spark_home')
- Добавление корня контента в структуру проекта.
- Использование .config ('PYTHONPATH', 'pyspark.zip:py4j-0.10.7-src.zip')
Но я продолжаюполучаю ту же ошибку.
Я работаю в PyCharm IDE на Windows.