FastText встраивает плохое сходство - PullRequest
0 голосов
/ 26 сентября 2018

Я пытаюсь работать с оболочкой fastTest python и английским файлом модели (.bin), чтобы получить вложения слов и уловить сходство между ними, но результаты не так хороши, как ожидаемые.

После загрузки моделис

model = ft.load_model('data/wiki.en.bin')

Я пытаюсь оценить косинусное сходство между различными парами слов следующим образом:

v1 = model.get_word_vector(str(word1))
v2 = model.get_word_vector(str(word2))

sim = np.dot(v1, v2) / (np.linalg.norm(v1) * np.linalg.norm(v2))

, но результаты действительно плохие, даже если я ввожу два очень похожихтакие слова, как «человек / люди» или «собака / животное», оба дают КС меньше 0,1.

Есть ли что-то, чего мне не хватает?

Заранее спасибо, кто бы ни попробовалдать мне подсказку

...