Вам не нужно снимать старую модель, чтобы начать обучение новой модели, поэтому, несмотря на любые задержки в обучении или всплески новых документов, у вас всегда будет живая модель, которая делает все возможное.
В зависимости от того, насколько пространство документа меняется со временем, переподготовка может оказаться незначительной. (Одна хорошая модель, построенная на большой исторической записи, может пригодиться для неопределенного вывода новых векторов.)
Обратите внимание, что настройка вывода для использования большего числа steps
(особенно для коротких документов) или более низкого начального значения alpha
(больше похожего на значение по умолчанию для обучения 0,025) может дать лучшие результаты.
Если имеются словосочетания, существует также вычисление сходства документов в «Word Mover's Distance» (WMD), которое может быть лучше при выявлении близких дубликатов. Обратите внимание, однако, что это может быть довольно дорого, чтобы рассчитать - вы можете захотеть сделать это только против подмножества вероятных кандидатов, или вам придется добавить много параллельных процессоров, чтобы сделать это навалом. Есть еще одна новая метрика расстояния, называемая «сходство мягкого косинуса» (доступная в недавнем обзоре), которая находится где-то между простым косинусоподобием вектор-вектор и полным ОМУ по своей сложности, что, возможно, стоит попробовать.
В той степени, в которой словарь не расширился, вы можете загрузить старую модель Doc2Vec
и продолжить ее до train()
- и, исходя из уже работающей модели, вы сможете получить аналогичные результаты с меньшим количеством проходов. Но обратите внимание: в настоящее время он не поддерживает изучение каких-либо новых слов, и самая безопасная практика - переобучаться с использованием чередования всех известных примеров. (Если вы будете обучаться только на новых примерах, модель может потерять сбалансированное понимание старых документов, которые не представлены повторно.)
(Если вас больше всего волнуют документы, которые дублируют точные серии слов, а не просто похожие нечеткие темы, вы можете взглянуть на другие методы смешивания, такие как разбиение документа на пакет символов) или «печать по принципу гальки», как обычно в приложениях для обнаружения плагиата.)