Как классификаторы классифицируют? - PullRequest
0 голосов
/ 08 апреля 2019

После обучения любого классификатора, классификатор сообщает вероятность того, что точка данных принадлежит классу.

y_pred = clf.predict_proba(test_point)

Предусматривает ли классификатор прогнозирование класса с максимальной вероятностью или рассматривает вероятности как распределение, построенное в соответствии с распределением?

Другими словами, предположим,вероятность выхода равна -

C1 - 0.1      C2 - 0.2      C3 - 0.7

Будет ли выходной сигнал всегда C3 или только в 70% случаев?

Ответы [ 2 ]

1 голос
/ 08 апреля 2019

Когда clf предсказывает, он не рассчитает, вероятно, для каждого класса. Он будет использовать полное соединение для получения массива типа [itemsnum, classisnum], тогда вы можете использовать max output [1] для получения класса items кстати, при обучении clf используется softmax, чтобы получить, вероятно, каждый класс, который является более плавным для оптимизации, вы можете найти некоторые документы о softmax , если вас интересует процесс обучения

0 голосов
/ 12 апреля 2019

Как перейти от оценки вероятности класса к классу, часто называют «функцией принятия решения» и часто считают отдельным от самого классификатора. В scikit-learn многие оценщики имеют функцию решения по умолчанию, доступную через predict() для многоклассовых задач, которая обычно просто возвращает наибольшее значение (функция argmax).

Однако это может быть расширено различными способами, в зависимости от потребностей. Например, если эффекты одного предсказания одного из классов являются очень дорогостоящими, то можно уменьшить эти вероятности (взвешивание классов). Либо можно иметь решающую функцию, которая выдает класс в качестве выходных данных только при высокой достоверности, в противном случае возвращается ошибка или резервный класс.

Можно также иметь классификацию по нескольким меткам, там выводится не один класс, а список классов. [ 0.6, 0.1, 0.7, 0.2 ] -> (class0, class2) Затем они могут использовать общий порог или порог для каждого класса. Это часто встречается при проблемах с тегами.

Но почти во всех случаях решающая функция является детерминированной, а не вероятностной.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...