Идентификация конкретного текста из документа без распознавания всего изображения - PullRequest
0 голосов
/ 16 июня 2019

У нас есть несколько форм без определенного формата, но почти все они содержат одни и те же поля.Формы заполняются вручную.

Мы хотим извлечь данные из некоторых конкретных полей.Расположение поля не является постоянным.Даже расположение формы не является постоянным.Однако соответствующие рукописные данные обычно находятся справа от заголовка поля, которое печатается.

Вероятно, выполнение распознавания текста для всей страницы и затем попытка получить соответствующее поле - это один из вариантов, но для эффективности мы быЯ хотел бы определить область интересов и OCR только соответствующую часть, особенно потому, что рукописное OCR очень дорого.

Я понимаю, что OpenCV может идентифицировать текстовые зоны и даже контуры на изображении.Любой шанс, что я могу определить свою область интересов, используя напечатанное имя поля, не запуская полное распознавание текста.

Отредактировано для большей ясности.Прилагаемая накладная станет отличным примером.С таким изображением, как мы читаем GST No (обведено кружком) только без полного распознавания текста.Sample Bill Image

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...