Не существует минимального количества изображений в классе для обучения. Конечно, чем меньше число, тем медленнее сходится модель, а точность будет низкой.
Что важно, по мнению Алексея (популярная разветвленная даркнет), как улучшить обнаружение объектов:
Для каждого объекта, который вы хотите обнаружить - должно быть не менее 1
похожий объект в наборе данных обучения с примерно одинаковыми: форма,
сторона объекта, относительный размер, угол поворота, угол наклона, освещенность.
Настолько желательно, чтобы ваш учебный набор данных включал изображения с объектами в
diffrent: весы, повороты, освещение, с разных сторон, на
разные фоны - желательно иметь 2000 разные
изображения для каждого класса или более, и вы должны обучать 2000 * классов
итерации или больше
https://github.com/AlexeyAB/darknet
Так что я думаю, что вы должны иметь минимум 2000 изображений на класс, если вы хотите получить оптимальную точность. Но 1000 на класс тоже неплохо. Даже с сотнями изображений на класс вы можете получить достойный (не оптимальный) результат. Просто соберите как можно больше изображений.