Для каждой задачи классификации вы можете построить матрицу путаницы .
Это матрица двустороннего ввода, которая позволяет вам видеть не только истинных положительных / истинных отрицательных значений ( TP / TN ), которые являются вашими правильными предсказаниями, но также ложные срабатывания ( FP ) / ложные срабатывания ( FN ), и в большинстве случаев это ваш истинный интерес.
FP и FN - это ошибки, которые допускает ваша модель. Вы можете отслеживать, насколько хорошо ваша модель справляется с обнаружением TP (1-FP) или TN (1-FN), используя чувствительность или специфичность ( ссылка ).
Обратите внимание, что вы не можете улучшить одно без понижения другого. Поэтому иногда вам нужно выбрать один.
Хорошим компромиссом является F1-счет , который пытается усреднить два.
Итак, если вас больше интересуют значения по умолчанию (давайте представим, что defaults=Positive Class
), вы предпочтете модель с более высокой чувствительностью . Но не забывайте также не пренебрегать специфичностью.
Вот пример кода в R:
# to get the confusion matrix and some metrics
caret::confusionMatrix(iris$Species, sample(iris$Species))