Я создаю модель Python, которая будет классифицировать данный документ на основе текста. Поскольку каждый документ по-прежнему должен проверяться человеком вручную, я создаю платформу для предложений, которая предоставит пользователю лучшие n-классы, к которым принадлежит данный документ. Кроме того, каждый документ может принадлежать более чем одному классу. У меня есть учебный комплект документов, заполненный форматированным текстом и их тегами.
Я хотел бы выполнить регрессию для каждого документа, чтобы получить вероятностный балл каждой классификации и вернуть 5 лучших классов с оценками.
Я изучил байесовские модели классификации и системы рекомендаций, и я думаю, что логистическая регрессия поможет лучше, поскольку она возвращает оценку. Я новичок в машинном обучении и буду признателен за любые советы или примеры, которые смоделированы после такого рода проблем. Спасибо.
РЕДАКТИРОВАТЬ: В частности, моя проблема заключается в том, как я должен анализировать свои текстовые данные для моделирования ML с логистической регрессией? Нужно ли представлять мой текст в векторном формате, используя Word2Vec / Doc2Vec или модель Bag-of-words?