Обратите внимание, что разные наборы слов-векторов могут различаться в зависимости от того, насколько хорошо они отражают желаемое сходство 'semanti c'. (В частности, обучение с более коротким window
может подчеркивать сходство между словами, которые являются взаимозаменяемыми заменами друг другу, в отличие от просто используемых в похожих доменах, как могут подчеркивать большие значения window
. См. этот ответ для получения более подробной информации.)
Возможно, вы также захотите взглянуть на «Расстояние до Word Mover», чтобы сравнить короткие тексты, содержащие различные сочетания несколько похожих слов. (Это довольно дорого, но должно быть практично для ваших коротких текстов. Он доступен в библиотеке Python gensim
как wmdistance()
в KeyedVectors
экземплярах.)
Если у вас есть данные обучения, где указаны ваши c используются фразы из нескольких слов, во многих естественных языковых тонко изменяемых контекстах, вы можете рассмотреть возможность объединения всех таких фраз в отдельные токены (например, machine_tool
или biological_tomatoes
) и обучение ваших собственный домен-указатель c слово-векторов.