Прогнозирование вероятности оценки каждого бина классификации для данного документа - PullRequest
1 голос
/ 15 марта 2019

Я создаю модель Python, которая будет классифицировать данный документ на основе текста. Поскольку каждый документ по-прежнему должен проверяться человеком вручную, я создаю платформу для предложений, которая предоставит пользователю лучшие n-классы, к которым принадлежит данный документ. Кроме того, каждый документ может принадлежать более чем одному классу. У меня есть учебный комплект документов, заполненный форматированным текстом и их тегами.

Я хотел бы выполнить регрессию для каждого документа, чтобы получить вероятностный балл каждой классификации и вернуть 5 лучших классов с оценками.

Я изучил байесовские модели классификации и системы рекомендаций, и я думаю, что логистическая регрессия поможет лучше, поскольку она возвращает оценку. Я новичок в машинном обучении и буду признателен за любые советы или примеры, которые смоделированы после такого рода проблем. Спасибо.

РЕДАКТИРОВАТЬ: В частности, моя проблема заключается в том, как я должен анализировать свои текстовые данные для моделирования ML с логистической регрессией? Нужно ли представлять мой текст в векторном формате, используя Word2Vec / Doc2Vec или модель Bag-of-words?

1 Ответ

0 голосов
/ 22 марта 2019

Короче говоря, создайте модель multi-label *1001* multi-class multi-label *. Затем откалибруйте выходы вашей модели. Для построения такой модели можно использовать модель Word2Vec или Bag-of-words.

Более длинная версия. Смотрите рисунок ниже. Это рисунок 1 из этой статьи. Выходными данными вашей модели будут логиты, и вы можете применить к логитам преобразование softmax (мультикласс) или сигмоид (мультиметка). Если вы хотите больше уверенности в выводе классификатора, то, вероятно, вы хотите выполнить шаг калибровки, описанный в документе. Этот шаг должен преобразовать выходные данные классификатора в представление вероятности истинной правильности, используя дополнительный набор данных проверки.

Figure1 from paper

...