Я пытаюсь работать с оболочкой fastTest python и английским файлом модели (.bin), чтобы получить вложения слов и уловить сходство между ними, но результаты не так хороши, как ожидаемые.
После загрузки моделис
model = ft.load_model('data/wiki.en.bin')
Я пытаюсь оценить косинусное сходство между различными парами слов следующим образом:
v1 = model.get_word_vector(str(word1))
v2 = model.get_word_vector(str(word2))
sim = np.dot(v1, v2) / (np.linalg.norm(v1) * np.linalg.norm(v2))
, но результаты действительно плохие, даже если я ввожу два очень похожихтакие слова, как «человек / люди» или «собака / животное», оба дают КС меньше 0,1.
Есть ли что-то, чего мне не хватает?
Заранее спасибо, кто бы ни попробовалдать мне подсказку