Исправление текстовой метки OCR с использованием оригинального текста шаблона - PullRequest
0 голосов
/ 22 июня 2019

У меня есть текст документа OCR и оригинальный текст документа.Ниже приведен пример

NUMBER / STREET APT / UNIT (Исходный текст)

NUS.IBER / STREET 202 МОЙ АДРЕС ТЕСТ APTI (OCR TEXT)

Теперь я хочу исправить метки в тексте (NUS. IBER) -> NUMBER и (APTI) -> (APT /)

Каков будет подход к автоматической коррекции надписей с использованием оригинального текста шаблона?

Я работаю над индивидуальным решением, в котором проверяю совпавшие надписи в тексте OCR из исходного текста, например, первое совпадение будет "/"поэтому я проверяю, будет ли заменена комбинация предшествующего слова, которое имеет приблизительную длину, аналогичную исходному слову, затем сопоставляет размещение символов с вероятностью исходного слова и заменяет слова оригинальным словом (NUS. IBER) на (NUMBER).Но все же я сталкиваюсь с проблемой, где есть большой текст и похоже, что я делаю что-то не так.Пожалуйста, предложите.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...