Я перехожу к изучению модели обнаружения объекта rapid_rcnn_inception_v2_coco, обученной на наборе данных COCO. Тем не менее, один из моих классов вызывает у меня небольшую головную боль, так как я никогда раньше не сталкивался с этим типом ложных срабатываний.
Я обнаруживаю 3 полных класса в моих данных с разделением изображений (до изображенияувеличение; см. ниже) 150/200/225 для QR-кодов / Регистрация / Маленькие черные точки соответственно. Всего около 575 стоковых изображений.
Мои данные разделены на 70/30 для поезда / теста.
Регистрация (которую мы будем называть Смещенными крестами) - это класс, который вызывает у менябольшая часть головной боли, потому что это не только выявление пересечений, которые выровнены, но и обнаружение пересечений только в одном определенном месте.
QR-коды и маленькие черные точки не имеют проблем с обнаружением, поэтому не беспокойтесь оих.
Вот изображение оценочного изображения, созданного Tensorflow:
https://imgur.com/HSuHNK4
На практике модель будет ограничивать это местоположение независимо от того, чтоесть или нет Крест со смещением. Предполагается также обнаружить этот крест:
https://imgur.com/IgzNHWk
Я попробовал практически все, что только могу придумать, вне обучения с нуля.
- Двойные тренировочные данные
- Почти каждое изображение уникально, за некоторыми исключениями
- Небольшое увеличение изображения
- Я написал небольшой скрипт, который выполняет случайные повороты,переворачивает и изменяет контрастность большинства изображений;сохраняет новое изображение для каждой мутации (данные увеличиваются в 5 раз). Связанные блоки также изменены, чтобы соответствовать увеличению.
Я собираюсь попробовать ImgAug, но я не уверен, насколько это поможет, учитывая, что я уже сделалнекоторое увеличение изображения.
Я также не верю, что модель не подходит. Прежде всего потому, что, глядя на это изображение, модель фактически начинает перетягивать около шага 19,5-20k.
https://imgur.com/9BfIlLV
Просто к вашему сведению: я прекратил фактическое обучение на шаге 19.41k;Я просто позволил ему перейти к шагу 200k, чтобы увидеть, изменилось ли что-нибудь.
Мне нужно, чтобы он правильно идентифицировал оба смещенных креста на изображениях, но я застрял на том, как это сделать, так как обычные средства защиты не далине работает.
Я открыт для предложений!