Я пытаюсь использовать Word2Vec в фрейме данных панд в течение нескольких дней.Решил использовать spark, никогда не использовал раньше.
Я начал использовать pyspark.ml, но в итоге столкнулся с гигантским java-исключением (после многих попыток), поэтому я решил попробовать pyspark.mllib
Документация
Используемый код (копирование и вставка из документов)
sentence = "a b " * 100 + "a c " * 10
localDoc = [sentence, sentence]
doc = sc.parallelize(localDoc).map(lambda line: line.split(" "))
model = Word2Vec().setVectorSize(10).setSeed(42).fit(doc)
Ошибка:
AttributeError Traceback (последний вызов последним)
in () 3 4 doc = spark.sparkContext.parallelize (localDoc) .map (лямбда-строка: line.split ("")) ----> 5 model = Word2Vec () .setVectorSize (10) .setSeed (42) .fit (doc)
2 кадра
/ content / spark-2.4.1-bin-hadoop2.7 / python / pyspark / ml/wrapper.py в _fit_java (self, набор данных) 290 "" "291 self._transfer_params_to_java () -> 292 вернуть self._java_obj.fit (набор данных._jdf) 293 294 def _fit (self, набор данных):
AttributeError: у объекта 'PipelinedRDD' нет атрибута '_jdf'
Уже проверено несколько тем с одинаковыми исключениями, но ни одна из них не относится к моей проблеме. Не уверен, гдеиди отсюда, кто-нибудь может пролить немного света?