В настоящее время я пытаюсь сделать крошечный детектор yoloV3 для чтения цифр / цифр бытового электрометра (датчика). Детектор будет работать на платформе Android / Cordova с каркасом tenorflow.js. До сих пор я использовал собственную смесь изображений и смешал ее с "Набором данных номеров улиц (SVHN)" . Для моего концептуального решения я написал около 200 фотографий и выбрал еще 200 из SVHN. С этими 400 фотографиями я смог получить AVG LOSS до 0,1. Из-за недостатка изображений, очевидно, возникла огромная проблема с переоснащением.
А вот мои вопросы о том, как оптимизировать обучение:
- Если моя фотография выглядит так, стоит ли мне аннотировать синий номер? Мое предположение - да.
вот изображение датчика
По yolo docs у меня должно быть 2000 изображений на класс. Я действительно сомневаюсь, что могу сделать так много изображений. Могу ли я хотя бы помочь с помощью какого-то искажения, такого как:
а) случайное уменьшение ширины или высоты и пересчет аннотации
б) ротация и пересчет аннотации
в) размытие
Должен ли я использовать маленькие, пиксельные / размытые изображения для обучения или выбрать лучшие? вот пример маленького уродливого числа 43
Большое спасибо за любой вклад в эту тему.