Как я должен сериализовать коллекцию объектов в RDD в pySpark? - PullRequest
0 голосов
/ 28 октября 2018

Как мне сериализовать коллекцию объектов в RDD в pySpark?Я встречал некоторый вопрос: в Scala нужен только «класс», расширяемый Serializable, но как это сделать в python?

, как этот код:

class test:
    data = 1
    def __init__(self):
        self.property=0

    def test2(self):
        print('hello')

if __name__ == '__main__':
    p1 = test()
    p2 = test()
    a = [p1, p2]
    sc = SparkContext('local[2]', 'test' )
    rdd = sc.parallelize(a)
    rdd.map(lambda x : x.property).collect()
    sc.stop()

Error: AttributeError: Can't get attribute 'test' 
on <module 'pyspark.worker

Iищу долго в сети.Но бесполезно.Пожалуйста, помогите или попробуйте дать некоторые идеи, как этого добиться.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...