Проблема
Я пытаюсь улучшить результат процесса распознавания текста, комбинируя выходные данные трех разных систем распознавания текста (tesseract, cuneinform, ocrad).Я уже делаю предварительную обработку изображений (вычистка, удаление пятен, сгибание и некоторые другие).Я не думаю, что эта часть может быть улучшена намного больше.Обычно текст для распознавания имеет длину от одного до 6 слов.Язык текста неизвестен, и довольно часто они содержат фантазийные слова.Я на Linux.Предпочтительным языком будет Python.
То, что у меня есть до сих пор
Часто каждый результат имеет одну или две ошибки.Но они имеют ошибки в разных персонажах / позициях.Ошибки могут заключаться в том, что они распознают неправильный символ или содержат несуществующий символ.Не так часто они игнорируют символ.
Пример может выглядеть следующим образом:
Xorem_ipsum
lorXYm_ipsum
lorem_ipuX
AX - это неправильно распознанный символ, а Y - это символ, которого нет втекст.Пробелы заменяются на «_» для лучшей читаемости.
В подобных случаях я пытаюсь объединить разные результаты.Используя неоднократно алгоритм «самая длинная общая подстрока» между тремя парами, я могу получить следующую структуру для данного примера
or m_ipsum
lor m_ip u
orem_ip u
Но здесь я застрял сейчас.Я не могу объединить эти кусочки в результат.
Вопросы
У вас есть
- идея, как объединить различные общие самые длинные подстроки?
- Или у вас есть идея, как решить эту проблему?