Модель ML для распознавания числовых значений в изображениях - PullRequest
1 голос
/ 27 мая 2019

Я занят разработкой приложения для Android, которое требует распознавания текста на устройстве в реальном времени, которое также должно работать в автономном режиме, поэтому распознавание облаков не вариант.В настоящее время я использую Firebase ML Kit (On Device) для выполнения задач распознавания текста.Я также использую Camera Previewer для обработки изображений с камеры в режиме реального времени, и каждый кадр должен анализироваться.

ML Kit отлично подходит для обнаружения простого текста (даже в очень мелких деталях), но проблема в том, что яперед ним стоит обнаружение числовых значений.

Возьмите следующее изображение: Image To Scan

У меня нет проблем с обнаружением всего текста на этом изображении, но по какой-то причине числовые значения очень неточные.Я получу результаты в диапазоне от 21 до 216 до 2180.

Я провел некоторое исследование MNIST для рисованных цифр, но не уверен на 100%, сработает ли это в моем сценарии, так как это не от руки, и этосодержит гораздо больше деталей, чем просто цифры.Я также пытался масштабировать изображение, оттенки серого (занимает очень много времени), удалять шум изображения и т. Д.

Некоторые из вышеперечисленных попыток повысили точность, но заняли много времени для получения опыта в реальном времени, а другиепопытки иногда делали его еще более неточным.

То, чего я пытаюсь добиться, - это либо реализовать другой тип «распознавания текста», либо изменить изображение таким образом, чтобы оно могло значительно определять числовые значенияболее точным.Я бы подумал, поскольку числовые значения в 99% случаев являются «самым большим текстом», у него не должно быть проблем с определением значения, но, похоже, разница в размерах шрифта может усложнить ситуацию.

ЛюбойКонсультирование в этой ситуации будет высоко ценится.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...