Включение обратной связи для переобучения WordToVec для поиска сходства документов - PullRequest
0 голосов
/ 17 июня 2019

Я обучил WordToVec от Gensim в текстовом корпусе, преобразовал его в DocToVec и затем использовал косинусное сходство, чтобы найти сходство между документами.Мне нужно предложить похожие документы.Теперь предположим, что среди 5 лучших предложений для конкретного документа мы находим вручную, что 3 из них не похожи. Можно ли учесть эту обратную связь при переподготовке модели?

1 Ответ

0 голосов
/ 17 июня 2019

Не совсем понятно, что вы подразумеваете под «преобразованием [модели Word2Vec] в DocToVec».Класс gensim Doc2Vec не использует или не требует модель Word2Vec в качестве входных данных.

Но, если у вас есть много наборов пар «это хорошее предложение» или «это плохое предложение» для вашего корпуса, составленных вручную, вы можете использовать оценку модели по всем этим для сравнения моделей,и обучите множество вариантов моделей (с различными значениями параметров модели, такими как size, window, min_count, sample и т. д.), выбирая ту, которая лучше всего оценена в ваших тестах.

Этот вид автоматического поиска параметров является наиболее простым способом использования производительности на реальных оценочных данных для настройки неконтролируемой модели, такой как Word2Vec.

(В зависимости от специфики ваших данных и проблемной области, вы можете также начать замечать закономерности, в которых модель лучше или хуже, которые помогают вам вручную настраивать части предварительной обработки данных. Например,в случаях ошибок могут быть предложены различные способы обработки заглавных букв или токенизации.)

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...