Является ли AUC лучшим показателем, чем точность в случае несбалансированных наборов данных в машинном обучении, если нет, который является лучшим показателем? - PullRequest
0 голосов
/ 26 февраля 2019

Лучше в обработке несбалансированных данных.Как и в большинстве случаев, если я имею дело с несбалансированными данными, точность не дает правильного представления.Несмотря на высокую точность, модель имеет плохую производительность.Если это не auc, то это лучшая мера для обработки несбалансированных данных.

Ответы [ 3 ]

0 голосов
/ 26 февраля 2019

Ни один не подходит для несбалансированных наборов данных.Вместо этого используйте область под кривой точного возврата.

0 голосов
/ 02 марта 2019

Существует разница между «точечными метриками» (точность, отзыв, оценка F1) и метриками, которые применяются ко всему классификатору (например, область под кривой ROC или область под кривой PR).

ТочкаМетрики, такие как точность, отзыв и оценка F1, рассчитываются с использованием решений классификатора.Это означает, что вам нужно выбрать жесткий порог принятия решения, например, все, что выше 0,5, является положительным, а все, что ниже 0,5, является отрицательным.(Вы могли также выбрать любой другой порог принятия решения в диапазоне от 0 до 1; выбор другого порога принятия решения изменит вычисляемую вами точность, отзыв и балл F1.)

Вы также можете рассчитать такие метрики, как область подКривая ROC («AUC») и площадь под кривой точного повторного вызова (AUPRC). Эти метрики можно рассматривать как «средние» по различным порогам принятия решения.Вы рассчитываете их, используя вектор предсказанных вероятностей, а НЕ вектор двоичных меток.Область под кривой ROC очень популярна, но не очень полезна, когда ваши данные искажены, чтобы иметь много истинных негативов.Площадь под кривой точного возврата - это отличный показатель, который можно использовать, когда ваши данные искажены и содержат много истинных негативов.Для получения дополнительной информации о том, как рассчитать AUROC или AUPRC и когда использовать каждый из них, вы можете просмотреть эту статью на AUROC и эту статью на AUPRC .

0 голосов
/ 26 февраля 2019

Отличительной особенностью несбалансированных классов является не точность, потому что если один класс имеет 1% примеров, а другой - 99%, вы можете классифицировать все примеры как ноль и при этом получить точность 99%.

Учитываяматрицу путаницы (ниже), вы также должны проанализировать точность и отзыв.Эти меры дают вам общее количество ложных срабатываний и ложных отрицаний.

Confusion Matrix

Затем вы должны определить, на что вы нацелены.При прогнозируемом техобслуживании ложный положительный результат - исправная машина, классифицированная как отказ, а ложный отрицательный результат - неисправный аппарат.Вы можете иметь точность 99% и превосходный AUC, но при этом получить точность 0%.

Precision and Recall

f1 score

...