У меня есть текст документа OCR и оригинальный текст документа.Ниже приведен пример
NUMBER / STREET APT / UNIT (Исходный текст)
NUS.IBER / STREET 202 МОЙ АДРЕС ТЕСТ APTI (OCR TEXT)
Теперь я хочу исправить метки в тексте (NUS. IBER) -> NUMBER и (APTI) -> (APT /)
Каков будет подход к автоматической коррекции надписей с использованием оригинального текста шаблона?
Я работаю над индивидуальным решением, в котором проверяю совпавшие надписи в тексте OCR из исходного текста, например, первое совпадение будет "/"поэтому я проверяю, будет ли заменена комбинация предшествующего слова, которое имеет приблизительную длину, аналогичную исходному слову, затем сопоставляет размещение символов с вероятностью исходного слова и заменяет слова оригинальным словом (NUS. IBER) на (NUMBER).Но все же я сталкиваюсь с проблемой, где есть большой текст и похоже, что я делаю что-то не так.Пожалуйста, предложите.