Любой способ извлечь исчерпывающую лексику универсального кодировщика предложений Google? - PullRequest
1 голос
/ 13 марта 2019

У меня есть несколько предложений, для которых я создаю вложение, и оно отлично подходит для поиска сходства, если в предложении нет действительно необычных слов.

В этом случае действительно необычные слова на самом деле содержатСамая большая информация о сходстве любых слов в предложении, НО вся эта информация теряется при встраивании из-за того, что слово, по-видимому, отсутствует в словаре модели.

Я хотел бы получить списокиз всех слов, известных в модели встраивания GUSE, чтобы я мог замаскировать эти известные слова из своего предложения, оставив только «новые» слова.

Затем я могу выполнить точный поиск слов для этих новых словв моем целевом корпусе и добиться юзабилити для поиска похожих предложений.

например, "Я люблю использовать Xapian!"встраивается как «Я люблю использовать UNK».

Если я просто выполню поиск по ключевому слову «Xapian» вместо поиска по семантическому сходству, я получу гораздо более релевантные результаты, чем при использовании GUSE и вектораKNN.

Любые идеи о том, как я могу извлечь словарь, известный / используемый GUSE?

...