После запуска оптического распознавания символов на некоторых изображениях я получаю приблизительный текст. Часто признание не велико. Например, фактический текст «ДАТА» приходит как «DHTE» или «0HTE». По сути, мне нужно идентифицировать и извлекать данные в каждой строке, поэтому я не хочу совершенного распознавания, достаточно просто идентифицировать строку даты. Я пытался вычислить расстояние редактирования Левенштейна, но, к сожалению, это приводит к схожим значениям для ДАТЫ и ВРЕМЕНИ. В данный момент я пытаюсь выяснить, могу ли я сопоставлять шаблоны данных с помощью регулярных выражений.
Существует ли метод / алгоритм для улучшения процесса сопоставления? К счастью, мой набор слов не очень большой.
(я использую тессеракт для ocr и groovy / java для алгоритма)