Модель Fasttext, загруженная Gensim, не будет продолжать обучение с новыми предложениями - PullRequest
0 голосов
/ 05 февраля 2020

Я пытаюсь загрузить fasttext .bin модель на испанском sh, загруженную с https://fasttext.cc/docs/en/crawl-vectors.html и продолжаю обучать ее новым предложениям из интересующего меня домена c.

Система: Anaconda, Jupyter Notebook, Python 3.6, Модернизированный Gensim

Мой код (пример игрушки):

from gensim.models.fasttext import load_facebook_model
import os
os.chdir('path/to/directory')
model = load_facebook_model('cc.es.300.bin')

'enmadrarse' in model.wv.vocab
>>> False
old_vector = np.copy(model.wv['enmadrarse'])

new_sentences = [['complexidad', 'cataratas', 'enmadrarse'],
['enmadrarse', 'cataratas', 'increibles'], 
['unidad','enmadrarse','complexa']]

model.build_vocab(new_sentences, update = True)
model.train(new_sentences, total_examples = len(new_sentences), epochs=model.epochs)

new_vector = np.copy(model.wv['enmadrarse'])
np.allclose(old_vector, new_vector, atol=1e-4)
>>> True

'enmadrarse' in model.wv.vocab
>>> False (still)

Старые и новые векторы слова равных, и это остается вне речи, поэтому модель ничему не научилась. Что я делаю неправильно?

...