Я создал модель PySpark Word2Ve c и сохранил ее следующим образом:
from pyspark.ml.feature import Word2Vec
w2v = Word2Vec(minCount = 1000, seed=42, inputCol="item_name", outputCol="features")
model = w2v.fit(sample)
model.save('w2v_pyspark')
Почему я использую PySpark W2V? Поскольку я собрал свой образец из таблицы Hive , и он очень большой, поэтому я не преобразовал искровой фрейм данных в pandas фрейм данных. Так зачем мне Генсим ? Потому что я хочу сделать красивую визуализацию. Мне нужно сгруппировать мою модель word2ve c и визуализировать ее, но функции pyspark не имеют такого большого количества функций, и я не могу использовать TensorBoard. Поэтому я попытался загрузить модель по gensim, и она не сработала, потому что нет тестовых данных
from gensim.test.utils import datapath
from gensim.models import KeyedVectors
gensim_model = KeyedVectors.load_word2vec_format(datapath('w2v_pyspark'), binary=False)
IOError: [Errno 2] No such file or directory:u'/data/anaconda2/lib/python2.7/site-packages/gensim/test/test_data/w2v_pyspark'
Я поместил свои данные из модели pyspark в этот путь, и это также не сработало. Как я могу решить эту проблему? Также, если вы знаете некоторые идеи о том, как кластеризовать и визуализировать с помощью PySpark, добро пожаловать!