Объект PipelinedRDD не имеет атрибута _jdf - на примере документации - PullRequest
0 голосов
/ 28 сентября 2019

Я пытаюсь использовать Word2Vec в фрейме данных панд в течение нескольких дней.Решил использовать spark, никогда не использовал раньше.

Я начал использовать pyspark.ml, но в итоге столкнулся с гигантским java-исключением (после многих попыток), поэтому я решил попробовать pyspark.mllib

Документация

Используемый код (копирование и вставка из документов)

sentence = "a b " * 100 + "a c " * 10
localDoc = [sentence, sentence]
doc = sc.parallelize(localDoc).map(lambda line: line.split(" "))
model = Word2Vec().setVectorSize(10).setSeed(42).fit(doc)

Ошибка:


AttributeError Traceback (последний вызов последним)

in () 3 4 doc = spark.sparkContext.parallelize (localDoc) .map (лямбда-строка: line.split ("")) ----> 5 model = Word2Vec () .setVectorSize (10) .setSeed (42) .fit (doc)

2 кадра

/ content / spark-2.4.1-bin-hadoop2.7 / python / pyspark / ml/wrapper.py в _fit_java (self, набор данных) 290 "" "291 self._transfer_params_to_java () -> 292 вернуть self._java_obj.fit (набор данных._jdf) 293 294 def _fit (self, набор данных):

AttributeError: у объекта 'PipelinedRDD' нет атрибута '_jdf'

Уже проверено несколько тем с одинаковыми исключениями, но ни одна из них не относится к моей проблеме. Не уверен, гдеиди отсюда, кто-нибудь может пролить немного света?

...