Question

После запуска оптического распознавания символов на некоторых изображениях я получаю приблизительный текст. Часто признание не велико. Например, фактический текст «ДАТА» приходит как «DHTE» или «0HTE». По сути, мне нужно идентифицировать и извлекать данные в каждой строке, поэтому я не хочу совершенного распознавания, достаточно просто идентифицировать строку даты. Я пытался вычислить расстояние редактирования Левенштейна, но, к сожалению, это приводит к схожим значениям для ДАТЫ и ВРЕМЕНИ. В данный момент я пытаюсь выяснить, могу ли я сопоставлять шаблоны данных с помощью регулярных выражений.

Существует ли метод / алгоритм для улучшения процесса сопоставления? К счастью, мой набор слов не очень большой.

(я использую тессеракт для ocr и groovy / java для алгоритма)

Pablo · Answer 1 · 10 июля 2011

У этого есть несколько довольно крутых алгоритмов http://secondstring.sourceforge.net/

Это основной в StringUtils Расстояние Левенштейна

Нечеткое совпадение строк

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нечеткое совпадение строк

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы