В классификации, в чем разница между точностью теста и показателем AU C? - PullRequest
0 голосов
/ 28 марта 2020

Я работаю над проектом, основанным на классификации, и оцениваю различные модели ML на основе их точности обучения, точности тестирования, матрицы путаницы и показателя AU C. Теперь я застрял в понимании разницы между оценками, которые я получаю, вычисляя точность модели ML на тестовом наборе (X_test), и оценкой AU C.

Если я прав, обе метрики вычисляются насколько хорошо модель ML способна предсказать правильный класс ранее невидимых данных. Я также понимаю, что для обоих случаев, чем выше число, тем лучше, если модель не подходит или не подходит.

Предполагается, что модель ML не подходит ни по форме, ни по форме. В чем разница между оценкой точности теста и оценкой AU C?

У меня нет знаний по математике и статистике, и я ориентирован на науку о данных из бизнеса. Поэтому я буду признателен за объяснение, которое может понять деловой человек.

1 Ответ

3 голосов
/ 28 марта 2020

Оба термина количественно определяют качество классификационной модели, однако точность количественно определяет единичное проявление переменных, что означает, что оно описывает единственную матрицу путаницы . AUC (area under the curve) представляет компромисс между true-positive-rate (tpr) и false-positive-rate (fpr) в нескольких матрицах путаницы, которые генерируются для различных значений fpr для одного и того же классификатора. Матрица смешения имеет вид:

enter image description here

1) Точность является мерой для одной матрицы смешения и определяется как: accuracy =  (TP+TN)/(TP+FP+TN+FN)

где tp = истинно-положительные, tn = истинно-отрицательные, fp = ложно-положительные и fn = ложно-отрицательные (количество каждого).

2) AUC измеряет area under the ROC (receiver operating characteristic), то есть кривую trade-off между true-positive-rate и false-positive-rate. Для каждого выбора порога ложноположительной скорости (fpr) определяется истинно положительная скорость (tpr). Т.е. для данного классификатора принимается fpr 0, 0.1, 0.2 и т. Д., А для каждого fpr оценивается его зависимый tpr. Следовательно, вы получаете функцию tpr (fpr) , которая отображает интервал [0,1] на один и тот же интервал, потому что обе частоты определены в этих интервалах. Область под этой линией называется AU C, то есть между 0 и 1, в результате чего ожидается, что случайная классификация даст AU C 0,5.

enter image description here enter image description here

AU C, как и площадь под кривой, определяется как:

enter image description here

Однако в реальных (и конечных) приложениях ROC является пошаговой функцией, а AU C определяется взвешенной суммой эти уровни.

Графика взята из Интеллектуальной лекции Боргельта по интеллектуальному анализу данных .

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...