У меня есть несколько предложений, для которых я создаю вложение, и оно отлично подходит для поиска сходства, если в предложении нет действительно необычных слов.
В этом случае действительно необычные слова на самом деле содержатСамая большая информация о сходстве любых слов в предложении, НО вся эта информация теряется при встраивании из-за того, что слово, по-видимому, отсутствует в словаре модели.
Я хотел бы получить списокиз всех слов, известных в модели встраивания GUSE, чтобы я мог замаскировать эти известные слова из своего предложения, оставив только «новые» слова.
Затем я могу выполнить точный поиск слов для этих новых словв моем целевом корпусе и добиться юзабилити для поиска похожих предложений.
например, "Я люблю использовать Xapian!"встраивается как «Я люблю использовать UNK».
Если я просто выполню поиск по ключевому слову «Xapian» вместо поиска по семантическому сходству, я получу гораздо более релевантные результаты, чем при использовании GUSE и вектораKNN.
Любые идеи о том, как я могу извлечь словарь, известный / используемый GUSE?