Возможно, вы захотите изучить трансферное обучение из-за небольшого набора данных. Вы можете использовать перенесенную модель ResNet для работы в качестве экстрактора функций и попробовать на ней алгоритм YOLO (Вы смотрите только один раз), просмотрите каждый окно (Посмотрите реализацию скользящего окна с использованием ConvNets), чтобы получить пряжку ремня и на основании этого вы можете классифицировать изображение.
Основываясь на моем понимании вашего набора данных, чтобы выполнить описанный выше подход, вам потребуется повторно аннотировать ваш набор данных в соответствии с требованиями алгоритма YOLO.
Чтобы посмотреть пример вышеупомянутого подхода, посетите https://mc.ai/implementing-yolo-using-resnet-as-feature-extractor/
Редактировать Если у вас есть аннотированный набор данных XML, и вам нужно преобразовать его в csv, чтобы следовать приведенному выше примеру, используйте https://github.com/datitran/raccoon_dataset
Счастливое моделирование.