Каждый корпус и цели проекта разные.Ваш подход к обучению на больших документах, но с выводом более коротких предложений, может сработать правдоподобно, но вы должны попробовать его, чтобы увидеть, насколько хорошо, а затем итеративно проверить, работают ли, возможно, более короткие обучающие документы (как отдельные предложения или группы предложений) лучше, для вашей конкретной цели.
Обратите внимание, что gensim
Doc2Vec
вывод часто выигрывает от нестандартных параметров - особенно больше steps
(чем крошечное значение по умолчанию 5) или меньшее начальное значение alpha
(больше похоже на тренировочное значение по умолчанию 0.025
), особенно на коротких документах.И этот вывод также может работать лучше или хуже в зависимости от метапараметров исходной модели.
Обратите также внимание на то, что предел реализации означает, что тексты, длина которых превышает 10 000 токенов, автоматически усекаются при обучении gensim
Word2Vec
/ Doc2Vec
,(Если у вас есть более длинные документы, вы можете разделить их на вложенные документы с токеном менее 10K, но затем повторить tags
для каждого вложенного документа, чтобы точно смоделировать, какой эффект имел бы тренинг с более длинным документом.)