Я пытаюсь установить Spark Release 2.4.0 на мой компьютер, система которого win7_x64.
Однако, когда я пытаюсь запустить простой код, чтобы проверить, готова ли spark к работе: code:
import os
from pyspark import SparkConf, SparkContext
conf = SparkConf().setMaster('local[*]').setAppName('word_count')
sc = SparkContext(conf=conf)
d = ['a b c d', 'b c d e', 'c d e f']
d_rdd = sc.parallelize(d)
rdd_res = d_rdd.flatMap(lambda x: x.split(' ')).map(lambda word: (word, 1)).reduceByKey(lambda a, b: a+b)
print(rdd_res)
print(rdd_res.collect())
Я получаю эту ошибку:
error1
Я открываю файл worker.py, чтобы проверить код.
Я считаю, что в версии 2.4.0 код выглядит следующим образом:
worker.py v2.4.0
Однако в версии 2.3.2, код:
worker.py v2.3.2
Затем переустанавливаю spark-2.3.2-bin-hadoop2.7, код работает нормально.
Также я нахожу этот вопрос: ImportError: Нет модуля с именем 'resource'
Итак, я думаю, что spark-2.4.0-bin-hadoop2.7 не можетработать в win7 из-за импорта модуля ресурсов в worker.py, который является специфичным для Unix пакетом.
Я надеюсь, что кто-то может решить эту проблему в spark.