Как объединить ложные срабатывания и ложные срабатывания в одну меру - PullRequest
6 голосов
/ 23 июля 2010

Я пытаюсь измерить производительность программы компьютерного зрения, которая пытается обнаружить объекты в видео. У меня есть 3 разные версии программы, которые имеют разные параметры. Я протестировал каждую из этих версий и получил 3 пары (процент ложных срабатываний, процент ложных срабатываний).

Теперь я хочу сравнить версии друг с другом, и затем мне интересно, имеет ли смысл объединять ложные срабатывания и ложные отрицания в одно значение и использовать это для сравнения. например, возьмите уравнение falsePositives / falseNegatives и посмотрите, что меньше.

Ответы [ 6 ]

6 голосов
/ 27 июля 2010

В дополнение к популярному показателю Area Under the ROC Curve (AUC), упомянутому @ alchemist-al , есть оценка, которая сочетает в себе точность и отзыв (которые определеныв терминах TP / FP / TN / FN), называемая F-мерой , которая изменяется от 0 до 1 (0 - наихудший, 1 - лучший):

F-measure = 2*precision*recall / (precision+recall)

, где

precision = TP/(TP+FP)  ,  recall = TP/(TP+FN)
3 голосов
/ 26 июля 2010

Пара других возможных решений:

-Ваш процент ложноположительных результатов (fp) и уровень ложноположительных результатов (fn) могут зависеть от порогового значения. Если вы построите кривую, где значение y равно (1-fn), а значение x равно (fp), вы будете строить кривую Receiver-Operator-Characteristic (ROC). Площадь под кривой ROC (AUC) является одним из популярных показателей качества.

-AUC может быть взвешен, если есть определенные области интереса

-Отчет равных ошибок. Для некоторого порога fp = fn. Сообщить об этом значении.

1 голос
/ 27 июля 2010

Если вы хотите максимизировать как истинные положительные, так и истинные отрицательные значения, вы можете использовать Диагностическую эффективность:

Диагностическая эффективность = Чувствительность * Специфичность

Где ...

Чувствительность = TP / (TP + FN)

Специфичность = TN / (TN + FP)

(TP = количество ложных срабатываний, FN = количество ложных срабатываний, TN = количество истинных негативов, FP = количество ложных срабатываний)

Этот показатель хорошо работает для наборов данных, имеющих несбалансированное количество классов (т. Е. Набор данных перекошен)

1 голос
/ 23 июля 2010

Ну, одним из традиционных способов является присвоение веса каждому из двух типов событий (например, некоторое целое число, чтобы указать относительную значимость каждого для валидации модели).Затем

  • умножьте каждый экземпляр на соответствующий весовой коэффициент;

  • затем возведите в квадрат их;

  • суммируйте условия;

  • возьмите квадратный корень

Это оставляет вас с одним числом - что-то «полная ошибка».

1 голос
/ 23 июля 2010

Необходимо учитывать, насколько «важные» ложные срабатывания относятся к ложным отрицаниям.

Например, если ваша программа предназначена для распознавания лиц людей, как ложные срабатывания, так и ложные отрицания одинаково безвредны иВы, вероятно, можете просто объединить их линейно.

Но если ваша программа была разработана для обнаружения бомб, то ложные срабатывания - это не большое дело (т. е. сказать, что это «бомба», когда на самом деле это не так), но ложные отрицания(то есть сказать, что «это не бомба», когда она на самом деле равна ) будет катастрофическим.

1 голос
/ 23 июля 2010

Зависит от того, сколько деталей вы хотите сравнить.

Объединение двух цифр даст вам общее представление о допустимой погрешности, но не даст представления о том, какая ошибка, поэтому если вы просто хотите знать, что именноявляется «более правильным» в общем смысле, тогда это нормально.

Если, с другой стороны, вы на самом деле хотите использовать результаты для какого-то более глубокого определения того, подходит ли процесс дляособая проблема, то я думаю, что держать их отдельно - это хорошая идея.Например, иногда ложные отрицания - это проблема, отличная от ложных срабатываний в реальных условиях.Робот только что избежал объекта, которого там не было ... или не заметил, что он движется со стороны обрыва?

Короче говоря, нет жесткого и быстрого глобального правила для определения того, насколько эффективно зрение.на основе одного супер расчета.Все сводится к тому, что вы планируете делать с важной информацией.

...