Интуиция за механизмом внимания в оптическом распознавании символов - PullRequest
1 голос
/ 08 марта 2020

Я работаю над Automati c Распознавание номерных знаков. На данный момент я собрал 2428 изображений, помечал их вручную номером лицензии. Я прошел через архитектуры, такие как CRNN, внимание-OCR и STN-OCR. Пробовал CRNN. Результат был удовлетворительным для набора данных syntheti c. Но слишком расплывчато на реальных изображениях. Итак, я планирую использовать внимание-OCR. Перед тем как обратить внимание, я вручную проверил, как выглядят эти функции, когда они передаются mobil enet Было замечено, что 5-й канал, выводимый из слоя block_5_depthwise_BN, больше фокусируется на области текста в изображении пластины. Но другие каналы не ведут себя так же. Я сомневаюсь, что если я передам этот слой блоку внимания, сможет ли он сосредоточиться на этом канале? Я хотел бы получить ценные предложения по архитектуре?

...