Question

Я обучил WordToVec от Gensim в текстовом корпусе, преобразовал его в DocToVec и затем использовал косинусное сходство, чтобы найти сходство между документами.Мне нужно предложить похожие документы.Теперь предположим, что среди 5 лучших предложений для конкретного документа мы находим вручную, что 3 из них не похожи. Можно ли учесть эту обратную связь при переподготовке модели?

gojomo · Answer 1 · 17 июня 2019

Не совсем понятно, что вы подразумеваете под «преобразованием [модели Word2Vec] в DocToVec».Класс gensim Doc2Vec не использует или не требует модель Word2Vec в качестве входных данных.

Но, если у вас есть много наборов пар «это хорошее предложение» или «это плохое предложение» для вашего корпуса, составленных вручную, вы можете использовать оценку модели по всем этим для сравнения моделей,и обучите множество вариантов моделей (с различными значениями параметров модели, такими как size, window, min_count, sample и т. д.), выбирая ту, которая лучше всего оценена в ваших тестах.

Этот вид автоматического поиска параметров является наиболее простым способом использования производительности на реальных оценочных данных для настройки неконтролируемой модели, такой как Word2Vec.

(В зависимости от специфики ваших данных и проблемной области, вы можете также начать замечать закономерности, в которых модель лучше или хуже, которые помогают вам вручную настраивать части предварительной обработки данных. Например,в случаях ошибок могут быть предложены различные способы обработки заглавных букв или токенизации.)

Включение обратной связи для переобучения WordToVec для поиска сходства документов

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Включение обратной связи для переобучения WordToVec для поиска сходства документов

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы