Нечеткое совпадение строк - PullRequest
1 голос
/ 10 июля 2011

После запуска оптического распознавания символов на некоторых изображениях я получаю приблизительный текст. Часто признание не велико. Например, фактический текст «ДАТА» приходит как «DHTE» или «0HTE». По сути, мне нужно идентифицировать и извлекать данные в каждой строке, поэтому я не хочу совершенного распознавания, достаточно просто идентифицировать строку даты. Я пытался вычислить расстояние редактирования Левенштейна, но, к сожалению, это приводит к схожим значениям для ДАТЫ и ВРЕМЕНИ. В данный момент я пытаюсь выяснить, могу ли я сопоставлять шаблоны данных с помощью регулярных выражений.

Существует ли метод / алгоритм для улучшения процесса сопоставления? К счастью, мой набор слов не очень большой.

(я использую тессеракт для ocr и groovy / java для алгоритма)

1 Ответ

1 голос
/ 10 июля 2011

У этого есть несколько довольно крутых алгоритмов http://secondstring.sourceforge.net/

Это основной в StringUtils Расстояние Левенштейна

...