У меня есть классификатор мультикласс, обученный по модели LinearSVC
, предоставленной библиотекой Sklearn. Эта модель предоставляет метод decision_function
, который я использую с библиотечными функциями numpy для правильной интерпретации набора результатов.
Но я не понимаю, почему этот метод всегда пытается распределить общее количество вероятностей (которое в моем случае равно 1) между каждым из возможных классов.
Я ожидал другое поведение моего классификатора.
Я имею в виду, например, что у меня есть короткий фрагмент текста, подобный этому:
"There are a lot of types of virus and bacterias that cause disease."
Но мой классификатор был обучен трем типам текстов, скажем, "математика", «история» и «технология».
Итак, я думаю, что у каждого из трех субъектов есть вероятность, очень близкая к нулю (и, следовательно, к сумме 1), когда я пытаюсь это классифицировать.
Есть ли более подходящий метод или модель для получения результатов, которые я только что описал?
Неправильно ли я использую decision_function
?
Иногда вы можете иметь текст, который не имеет ничего общего с какими-либо предметами, используемыми для обучения классификатора или наоборот, это может быть вероятность около 1 для более чем одного предмета.
Я думаю, мне нужно найти немного света на эти вопросы (текстовая классификация, отсутствие двоичной классификации и т. д. c.)
Заранее большое спасибо за любую помощь!