Question

Мне нужно предложение по неконтролируемому обучению Doc2Ve c для двух вариантов, которые у меня есть. Сценарий таков: у меня есть N документов размером более 3000 токенов. Итак, теперь для обучения, какая альтернатива лучше:

Обучение с целым документом как таковым.
Разбиение документов на куски по 1000 токенов и затем обучение их.

gojomo · Answer 1 · 22 марта 2020

Вам следует остерегаться документов с более чем 10000 токенами - это внутренний предел реализации, равный gensim, и токены за пределами 10000-й позиции в одном документе будут игнорироваться.

Но следует ли разбивать Документы на 1000-токеновые блоки полностью зависят от того, что лучше всего подходит для ваших конкретных данных и целей. Если у вас есть причина рассмотреть это - возможно, вы хотите получить результаты диапазонов субдокументов? - тогда вы должны попробовать, сравнить результаты с альтернативой и использовать то, что работает лучше. Там нет общего ответа.

Doc2Ve c Тренировка без присмотра

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Doc2Ve c Тренировка без присмотра

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы