Мы реализовали инфраструктуру обнаружения объектов в Keras на основе модели Faster R-CNN.В настоящее время мы хотели бы найти способ автоматически классифицировать изображения, на которых модель работает исключительно хорошо.Таким образом, моя идея состояла в том, чтобы создать модель дискриминатора, как в GAN, чтобы отличать основную правду от предсказанных блоков.
Основная идея состоит в том, что мы запускаем изображение через классификатор базовых изображений (мы используем DenseNet) и помещаем либо заземленные блоки истинности, либо предсказанные блоки на этом изображении через слой пула RoI FRCNN, выбирающий GT или случайное прогнозирование,После RoI Pooling мы добавили несколько слоев FC, а затем один нейрон с сигмовидной активацией для различия.
Так что теперь эта модель либо изучает «слишком хорошо», то есть точность двоичного кода близка к 100% после 10 изображенийили «слишком плохо» означает, что бинарная точность все время близка к 50%.Это зависит от того, загружаем ли мы веса, с которыми обучалась модель FRCNN или нет.Если мы загрузим их, активация для блоков GT после пула RoI, вероятно, будет весьма отличима от активации предсказанных блоков.Если мы не загружаем веса, модель, вероятно, «слишком слаба», чтобы чему-то научиться.
Итак, наш вопрос: есть ли у кого-нибудь опыт или интуиция о том, как моделировать и обучать такой подход?Что-то не так с нашей сетью?