Официальная документация Spark предоставляет пример применения map
к rdd
в определении класса. Это так:
class MyClass(object):
def func(self, s):
return s
def doStuff(self, rdd):
return rdd.map(self.func)
Документация Spark гласит: «Здесь, если мы создадим новый экземпляр MyClass
и вызовем на нем doStuff
, карта внутри него ссылается на метод func1
этот экземпляр MyClass
, поэтому весь объект должен быть отправлен в кластер. Это похоже на запись rdd.map(x => this.func1(x))
. "
Однако я не могу выполнить эту работу. Я пытаюсь сделать следующее:
corpus = [["B","B","A","C","A","C","A","A","B","A"], ["C", "Z", "Z", "Z", "D"]]
rdd = sc.parallelize(corpus)
obj = MyClass()
obj.doStuff(rdd)
Что означает отправка всего объекта?
Любая помощь будет оценена.