Не совсем понятно, что вы подразумеваете под «преобразованием [модели Word2Vec] в DocToVec».Класс gensim Doc2Vec
не использует или не требует модель Word2Vec
в качестве входных данных.
Но, если у вас есть много наборов пар «это хорошее предложение» или «это плохое предложение» для вашего корпуса, составленных вручную, вы можете использовать оценку модели по всем этим для сравнения моделей,и обучите множество вариантов моделей (с различными значениями параметров модели, такими как size
, window
, min_count
, sample
и т. д.), выбирая ту, которая лучше всего оценена в ваших тестах.
Этот вид автоматического поиска параметров является наиболее простым способом использования производительности на реальных оценочных данных для настройки неконтролируемой модели, такой как Word2Vec
.
(В зависимости от специфики ваших данных и проблемной области, вы можете также начать замечать закономерности, в которых модель лучше или хуже, которые помогают вам вручную настраивать части предварительной обработки данных. Например,в случаях ошибок могут быть предложены различные способы обработки заглавных букв или токенизации.)