Doc2Ve c Тренировка без присмотра - PullRequest
0 голосов
/ 21 марта 2020

Мне нужно предложение по неконтролируемому обучению Doc2Ve c для двух вариантов, которые у меня есть. Сценарий таков: у меня есть N документов размером более 3000 токенов. Итак, теперь для обучения, какая альтернатива лучше:

  1. Обучение с целым документом как таковым.
  2. Разбиение документов на куски по 1000 токенов и затем обучение их.

1 Ответ

1 голос
/ 22 марта 2020

Вам следует остерегаться документов с более чем 10000 токенами - это внутренний предел реализации, равный gensim, и токены за пределами 10000-й позиции в одном документе будут игнорироваться.

Но следует ли разбивать Документы на 1000-токеновые блоки полностью зависят от того, что лучше всего подходит для ваших конкретных данных и целей. Если у вас есть причина рассмотреть это - возможно, вы хотите получить результаты диапазонов субдокументов? - тогда вы должны попробовать, сравнить результаты с альтернативой и использовать то, что работает лучше. Там нет общего ответа.

...