В pyspark есть метод addPyFile
, но я не знаю, как его использовать, и его использование в сети очень мало. Я думаю, что addPyFile
может передавать файлы Python узлам Spark, и я проверил это:
sc.addPyFile("/sparkLearning/tools/redis_util.py")
rdd = sc.parallelize([('a', 10), ('b', 20), ('c', 30)])
def map_1(row):
redis_util = redis_util.RedisUtil()
k = row[0]
v = row[1]
redis_util.set(name=k, value=v)
rdd.map(map_1).collect()
Это пошло не так: UnboundLocalError: local variable 'redis_util' referenced before assignment
, но как я могу получить использование addPyFile
?