Оба термина количественно определяют качество классификационной модели, однако точность количественно определяет единичное проявление переменных, что означает, что оно описывает единственную матрицу путаницы . AUC (area under the curve)
представляет компромисс между true-positive-rate (tpr)
и false-positive-rate (fpr)
в нескольких матрицах путаницы, которые генерируются для различных значений fpr
для одного и того же классификатора. Матрица смешения имеет вид:
1) Точность является мерой для одной матрицы смешения и определяется как:
где tp = истинно-положительные, tn = истинно-отрицательные, fp = ложно-положительные и fn = ложно-отрицательные (количество каждого).
2) AUC
измеряет area under the ROC (receiver operating characteristic)
, то есть кривую trade-off
между true-positive-rate
и false-positive-rate
. Для каждого выбора порога ложноположительной скорости (fpr) определяется истинно положительная скорость (tpr). Т.е. для данного классификатора принимается fpr 0, 0.1, 0.2 и т. Д., А для каждого fpr оценивается его зависимый tpr. Следовательно, вы получаете функцию tpr (fpr) , которая отображает интервал [0,1] на один и тот же интервал, потому что обе частоты определены в этих интервалах. Область под этой линией называется AU C, то есть между 0 и 1, в результате чего ожидается, что случайная классификация даст AU C 0,5.
AU C, как и площадь под кривой, определяется как:
Однако в реальных (и конечных) приложениях ROC
является пошаговой функцией, а AU C определяется взвешенной суммой эти уровни.
Графика взята из Интеллектуальной лекции Боргельта по интеллектуальному анализу данных .