Вы можете сделать все это! Присвоение одного и того же тега нескольким текстам имеет почти тот же эффект, что и объединение этих текстов в один большой текст и присвоение ему этого тега. Небольшая разница будет в режимах Doc2Vec
, где есть контекстное окно - PV-DM (dm=1
). С отдельными текстами никогда не было бы контекстов, простирающихся через конец / начало предложений.
Фактически, поскольку оптимизированные пути кода gensim
имеют ограничение в 10 000 токенов для размеров текста, разбивая большие документы на вложенные документы, но иногда необходимо повторять их теги в качестве обходного пути.
То, что вы специально предложили, обучая как full-doc, так и фрагменты doc, сработает, но также даст эффект удвоения объема текста (и, следовательно, примеров обучения-внимания / индивидуального прогнозирования) для тегов 'doc1'
по сравнению с более узкими тегами для каждого предложения. Вы можете этого хотеть или нет - это может повлиять на относительное качество каждого из них.
Что лучше, неясно - это зависит от вашего корпуса и конечных целей, поэтому следует определять с помощью экспериментов с четкой конечной оценкой, чтобы вы могли автоматизировать / систематизировать тщательный поиск того, что лучше.
Несколько важных замечаний:
Doc2Vec
имеет тенденцию работать лучше с документами, по крайней мере, дюжиной или более слов на документ.
-
'words'
необходимо токенизировать - список строк, а не строка.
- Он выигрывает от большого количества разнообразных данных, в частности, если вы тренируетесь с более крупной моделью - с более уникальными тегами (включая перекрывающиеся) и многомерными векторами - вам понадобится больше данных, чтобы избежать переобучения.