Я хочу обучить CNN, который может делать вывод в реальном времени на изображениях с большим разрешением. CNN должен читать рукописные цифры, состоящие из 5 цифр.
До сих пор я тренировал L eNet -5, Overfeat и Yolo на MNIST.
L eNet -5 дал мне хорошую точность, но с наивным скользящим подходом windows Я получил 4000 windows на изображении FullHD (хотя и с большим шагом), что недостаточно быстро. (10 мс для одного окна на CPU-> 40 сек на изображение)
Поэтому я рассмотрел несколько более эффективных способов скользящего окна и натолкнулся на Overfeat. Он сворачивает всю картинку и создает выходной массив класса Class [windowsX, windowsY, Classes]. Преимущество здесь состоит в том, что перекрывающиеся регионы не должны рассчитываться несколько раз. Прямо сейчас я пытаюсь обучить и оценить сеть с помощью slim.
Итак, наконец, на мой вопрос:
Есть ли лучший подход или CNN для этой проблемы?
Спасибо!