Может ли doc2vec быть полезен при обучении документам и выводу только предложений - PullRequest
0 голосов
/ 05 июня 2018

Я тренируюсь с некоторыми документами в Doc2vec от gensim.

У меня есть два типа ввода:

  1. Вся английская Википедия: Каждая статья текста Википедии рассматривается как один документ для обучения doc2vec.(Всего около 5,5 миллионов статей или документов)
  2. Некоторые документы, связанные с моим проектом, которые были подготовлены вручную и собраны с некоторых веб-сайтов.(около 15000 документов).
    Где каждый документ имеет размер около 100 предложений.

Далее, я хочу использовать эту модель для вывода предложений размером (10 ~ 20 слов).

Я прошу дать некоторые разъяснения по поводу моего подхода.
Является ли метод обучения над документами (размер каждого документа около 100 предложений каждый), а затем вывод по новому предложению правильным.?

Или я должен обучаться только предложениям, а не документам, а затем делать выводы по новому предложению .?

1 Ответ

0 голосов
/ 06 июня 2018

Каждый корпус и цели проекта разные.Ваш подход к обучению на больших документах, но с выводом более коротких предложений, может сработать правдоподобно, но вы должны попробовать его, чтобы увидеть, насколько хорошо, а затем итеративно проверить, работают ли, возможно, более короткие обучающие документы (как отдельные предложения или группы предложений) лучше, для вашей конкретной цели.

Обратите внимание, что gensim Doc2Vec вывод часто выигрывает от нестандартных параметров - особенно больше steps (чем крошечное значение по умолчанию 5) или меньшее начальное значение alpha (больше похоже на тренировочное значение по умолчанию 0.025), особенно на коротких документах.И этот вывод также может работать лучше или хуже в зависимости от метапараметров исходной модели.

Обратите также внимание на то, что предел реализации означает, что тексты, длина которых превышает 10 000 токенов, автоматически усекаются при обучении gensim Word2Vec / Doc2Vec,(Если у вас есть более длинные документы, вы можете разделить их на вложенные документы с токеном менее 10K, но затем повторить tags для каждого вложенного документа, чтобы точно смоделировать, какой эффект имел бы тренинг с более длинным документом.)

...