Я тренирую YOLOv3 (Дар knet) на предварительно обученных сверточных весах darknet53. У меня есть 3 класса для тренировки с 4000 тестовых изображений каждый. После 6 тыс. Порций модель демонстрирует высокую точность (более 90%) для изображений с одним классом. Тем не менее, модель пытается обнаружить несколько классов в одном изображении. Пример:
Изображение, показывающее 1 яблоко (фрукт класса): 90% + для яблока
Изображение, показывающее 1 яблоко (фрукт класса), 1 морковь (овощ класса) и 1 лук (овощ класса): 75% для яблока, 15% или меньше для моркови, 10% или меньше для лука.
Я использовал Google Open Open Dataset. Я исследовал и не мог найти ответ на этот случай.