Существует разница между «точечными метриками» (точность, отзыв, оценка F1) и метриками, которые применяются ко всему классификатору (например, область под кривой ROC или область под кривой PR).
ТочкаМетрики, такие как точность, отзыв и оценка F1, рассчитываются с использованием решений классификатора.Это означает, что вам нужно выбрать жесткий порог принятия решения, например, все, что выше 0,5, является положительным, а все, что ниже 0,5, является отрицательным.(Вы могли также выбрать любой другой порог принятия решения в диапазоне от 0 до 1; выбор другого порога принятия решения изменит вычисляемую вами точность, отзыв и балл F1.)
Вы также можете рассчитать такие метрики, как область подКривая ROC («AUC») и площадь под кривой точного повторного вызова (AUPRC). Эти метрики можно рассматривать как «средние» по различным порогам принятия решения.Вы рассчитываете их, используя вектор предсказанных вероятностей, а НЕ вектор двоичных меток.Область под кривой ROC очень популярна, но не очень полезна, когда ваши данные искажены, чтобы иметь много истинных негативов.Площадь под кривой точного возврата - это отличный показатель, который можно использовать, когда ваши данные искажены и содержат много истинных негативов.Для получения дополнительной информации о том, как рассчитать AUROC или AUPRC и когда использовать каждый из них, вы можете просмотреть эту статью на AUROC и эту статью на AUPRC .