trying я пытаюсь оценить мой модуль обнаружения видеообъектов , и для этого я использую набор данных InageNet VID.В какой-то момент я сталкиваюсь со случаем, чтобы оценить кадр, содержащий ноль объектов.Это означает, что в этом кадре нет наземных bbox-блоков с правдой (это хорошо, так как мы говорим об обнаружении видеообъектов).
Поскольку модуль, который я использую, ожидал присутствия хотя бы 1 bbox, мне было интересно, каков официальный подход к этим случаям со стороны ImageNet.Я нашел это описание , которое, очевидно, не является исчерпывающим, может дать некоторую точку зрения на сайте ImageNet, которая гласит:
Метрика оценки такая же, как и для задачи обнаружения объекта, то есть объекты, которыене будут аннотированы, будут оштрафованы, как и дубликаты обнаружений (две аннотации для одного и того же экземпляра объекта).
(sic; опечатка из оригинального текста)
Что не упоминаетсяприведенный выше сценарий.Поскольку это простое описание, я не уверен, что оно охватывает каждый крайний случай.Обычно при обнаружении объекта с одним изображением это не является проблемой, поскольку образцы оценки всегда содержат какой-либо объект.Но в этом случае означает ли это, что я должен вообще игнорировать эти кадры, например?
Кроме того, проверяя этот репозиторий на предмет метрики обнаружения объекта (которая, кстати, является супер-аналитической), в случае отсутствия gtПохоже, что он входит в общий сценарий о False Positive (FP) .В этом случае пересечение будет равно 0 (поскольку gt bbox не существует), а Union будет просто ненулевым числом, равным FP bbox, и поэтому IoU = 0
.
Итак, как официальный ImageNet справляется с этими случаями?Меня не интересует разумный выбор, просто официальная версия.