Как мне сериализовать коллекцию объектов в RDD в pySpark?Я встречал некоторый вопрос: в Scala нужен только «класс», расширяемый Serializable, но как это сделать в python?
, как этот код:
class test:
data = 1
def __init__(self):
self.property=0
def test2(self):
print('hello')
if __name__ == '__main__':
p1 = test()
p2 = test()
a = [p1, p2]
sc = SparkContext('local[2]', 'test' )
rdd = sc.parallelize(a)
rdd.map(lambda x : x.property).collect()
sc.stop()
Error: AttributeError: Can't get attribute 'test'
on <module 'pyspark.worker
Iищу долго в сети.Но бесполезно.Пожалуйста, помогите или попробуйте дать некоторые идеи, как этого добиться.