CNN для MNIST с эффективным скольжением windows, для обнаружения в реальном времени - PullRequest
1 голос
/ 24 февраля 2020

Я хочу обучить CNN, который может делать вывод в реальном времени на изображениях с большим разрешением. CNN должен читать рукописные цифры, состоящие из 5 цифр.

До сих пор я тренировал L eNet -5, Overfeat и Yolo на MNIST.

L eNet -5 дал мне хорошую точность, но с наивным скользящим подходом windows Я получил 4000 windows на изображении FullHD (хотя и с большим шагом), что недостаточно быстро. (10 мс для одного окна на CPU-> 40 сек на изображение)

Поэтому я рассмотрел несколько более эффективных способов скользящего окна и натолкнулся на Overfeat. Он сворачивает всю картинку и создает выходной массив класса Class [windowsX, windowsY, Classes]. Преимущество здесь состоит в том, что перекрывающиеся регионы не должны рассчитываться несколько раз. Прямо сейчас я пытаюсь обучить и оценить сеть с помощью slim.

Итак, наконец, на мой вопрос:

Есть ли лучший подход или CNN для этой проблемы?

Спасибо!

1 Ответ

2 голосов
/ 02 апреля 2020

Вы можете построить модель CRNN для повышения точности. Он состоит из слоев сверточной нейронной сети (CNN), слоев рекуррентной нейронной сети (RNN) и конечного уровня временной классификации Connectionist (CT C).

CRNN Github Reference

Построение модели CRNN

...