Как отправить весь объект на карту искры в python? - PullRequest
0 голосов
/ 10 апреля 2020

Официальная документация Spark предоставляет пример применения map к rdd в определении класса. Это так:

class MyClass(object):
    def func(self, s):
        return s
    def doStuff(self, rdd):
        return rdd.map(self.func)

Документация Spark гласит: «Здесь, если мы создадим новый экземпляр MyClass и вызовем на нем doStuff, карта внутри него ссылается на метод func1 этот экземпляр MyClass, поэтому весь объект должен быть отправлен в кластер. Это похоже на запись rdd.map(x => this.func1(x)). "

Однако я не могу выполнить эту работу. Я пытаюсь сделать следующее:

corpus = [["B","B","A","C","A","C","A","A","B","A"], ["C", "Z", "Z", "Z", "D"]]

rdd = sc.parallelize(corpus)

obj = MyClass()

obj.doStuff(rdd)

Что означает отправка всего объекта?

Любая помощь будет оценена.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...