Я занят разработкой приложения для Android, которое требует распознавания текста на устройстве в реальном времени, которое также должно работать в автономном режиме, поэтому распознавание облаков не вариант.В настоящее время я использую Firebase ML Kit (On Device) для выполнения задач распознавания текста.Я также использую Camera Previewer для обработки изображений с камеры в режиме реального времени, и каждый кадр должен анализироваться.
ML Kit отлично подходит для обнаружения простого текста (даже в очень мелких деталях), но проблема в том, что яперед ним стоит обнаружение числовых значений.
Возьмите следующее изображение: ![Image To Scan](https://happywrldventures.com/Scan_Example_2.jpg)
У меня нет проблем с обнаружением всего текста на этом изображении, но по какой-то причине числовые значения очень неточные.Я получу результаты в диапазоне от 21 до 216 до 2180.
Я провел некоторое исследование MNIST для рисованных цифр, но не уверен на 100%, сработает ли это в моем сценарии, так как это не от руки, и этосодержит гораздо больше деталей, чем просто цифры.Я также пытался масштабировать изображение, оттенки серого (занимает очень много времени), удалять шум изображения и т. Д.
Некоторые из вышеперечисленных попыток повысили точность, но заняли много времени для получения опыта в реальном времени, а другиепопытки иногда делали его еще более неточным.
То, чего я пытаюсь добиться, - это либо реализовать другой тип «распознавания текста», либо изменить изображение таким образом, чтобы оно могло значительно определять числовые значенияболее точным.Я бы подумал, поскольку числовые значения в 99% случаев являются «самым большим текстом», у него не должно быть проблем с определением значения, но, похоже, разница в размерах шрифта может усложнить ситуацию.
ЛюбойКонсультирование в этой ситуации будет высоко ценится.