В простом, как использовать собственную модель word2vec, созданную в gensim? - PullRequest
0 голосов
/ 22 мая 2018

Я обучил свою собственную модель word2vec в gensim, и я пытаюсь загрузить эту модель в просторном режиме.Сначала мне нужно сохранить его на моем диске, а затем попытаться загрузить init-модель в просторном режиме, но не могу понять, как именно.

gensimmodel
Out[252]:
<gensim.models.word2vec.Word2Vec at 0x110b24b70>

import spacy
spacy.load(gensimmodel)

OSError: [E050] Can't find model 'Word2Vec(vocab=250, size=1000, alpha=0.025)'. It doesn't seem to be a shortcut link, a Python package or a valid path to a data directory.

Ответы [ 2 ]

0 голосов
/ 07 ноября 2018

Обучите и сохраните вашу модель в текстовом формате:

from gensim.test.utils import common_texts, get_tmpfile
from gensim.models import Word2Vec

path = get_tmpfile("./data/word2vec.model")

model = Word2Vec(common_texts, size=100, window=5, min_count=1, workers=4)
model.wv.save_word2vec_format("./data/word2vec.txt")

Gzip текстовый файл:

gzip word2vec.txt

, который производит word2vec.txt.gz файл.

Выполните следующую команду:

python -m spacy init-model en ./data/spacy.word2vec.model --vectors-loc word2vec.txt.gz

Загрузите векторы, используя:

nlp = spacy.load('en', vectors='./data/spacy.word2vec.model/')
0 голосов
/ 29 мая 2018

Как объяснено здесь , вы можете импортировать пользовательские векторы слов, которые обучались с использованием Gensim, Fast Text или оригинальной реализации word2vec Томаса Миколова, создав модель с использованием:

wget https://s3-us-west-1.amazonaws.com/fasttext-vectors/word-vectors-v2/cc.la.300.vec.gz
python -m spacy init-model en your_model --vectors-loc cc.la.300.vec.gz

затемВы можете загрузить свою модель, nlp = spacy.load('your_model') и использовать ее!

Также см. аналогичный вопрос, который ответил здесь .

...