Doc2Ve c Pre обучение и определение векторов - PullRequest
0 голосов
/ 20 марта 2020

Предположим, я обучил модель doc2ve c 50000 документам и хочу вывести векторы для отдельного набора данных, содержащего 36000 документов. В этом случае предполагаемые векторы будут эффективны для последующей задачи классификации, поскольку я предполагаю, что предполагаемые векторы зависят от размера документов, с которыми обучается модель.

Примечание: Набор данных, т.е. один, используемый для обучения doc2ve c, и другой для определения векторов, являются уникальными, но принадлежат к той же области Верховного суда США.

Пожалуйста, исправьте меня, если я ошибаюсь с уважительная причина.

1 Ответ

1 голос
/ 20 марта 2020

С таким крошечным набором данных я не смогу дать никакого ответа, так же как просто попытаться проверить, работает ли он.

50000 является небольшим sh для тренировочного набора, но некоторые полезные Doc2Vec результаты были основаны на подобных корпусах.

Вывод вектора, как и обучение, сокращает документы любой длины до вектора фиксированного размера. (Но обратите внимание: gensim молча ограничивает любой текст, подаваемый на модель 2Vec, до 10000 токенов.)

Но, если вы натренировали модель на документах, которые содержат около 1000 слов, попробуйте сделать вывод на 10 фрагменты-слова, которые делают c -векторы, могут быть не такими полезными или полезными, как предполагаемые векторы в документах, более похожих на обучающий набор. Но вам все равно нужно попробовать это выяснить. (Также обратите внимание: слова, не выученные во время обучения, полностью игнорируются при выводе, поэтому последующие выводы в документах со многими / всеми неизвестными словами будут слабыми или бессмысленными.)

Так ли это в случае ваших документов вывода - они сильно отличаются от учебных документов по размеру и словарному запасу? И если так, то почему? (Можете ли вы тренироваться с более репрезентативными документами?)

Если набор из 36000 документов зафиксирован до начала обучения, может быть также допустимо / оправданно включить их в неконтролируемое обучение Doc2Vec. Это данные, они помогают выучить домен lin go, и у них нет какой-либо формы «правильных» ответов для классификации.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...