Tesseract OCR - рукописный шрифт - PullRequest
2 голосов
/ 05 января 2012

Я пытаюсь использовать Tesseract-OCR для обнаружения текста изображений с чистым текстом в нем, но этот текст имеет рукописный шрифт под названием Journal .

Пример:

enter image description here

Результат не самый лучший:

Максимум!размер` W (35)

Есть ли возможность улучшить результат или, скорее, получить точный результат?

Ответы [ 2 ]

4 голосов
/ 07 января 2012

Я удивлен, что у Тессеракта все хорошо. Немного потренировавшись, вы сможете научиться правильно распознавать строчную букву «l».

Основная проблема, с которой вы столкнулись - это вершина большого символа Т. Горизонтальная линия проходит через 2 (возможно, 3) другие символьные ячейки, и это может вызвать проблемы для любого механизма распознавания, когда он пытается сегментировать символы для распознавания. Обучение может помочь в этом случае.

Следующая проблема - это. и: которые очень легкие / тонкие и, возможно, удаляются с помощью предварительной обработки изображения еще до начала распознавания.

В целом, единственный шанс улучшить результаты с Tesseract - это изучить тренировку. Вот несколько ссылок, которые могут помочь.

Альтернатива Тессеракт OCR Обучение?
Tesseract OCR Библиотека обучающий шрифт
Тессеракт путает два числа

0 голосов
/ 10 января 2012

Как упоминал Эндрю Кэш, будет очень сложно выполнить OCR для этой буквы Т из-за ее пересечения с рядом следующих символов.

Для улучшения результатов вы можете попробовать более точный SDK,Взгляните на ABBYY Cloud OCR SDK , это облачный OCR SDK, недавно выпущенный ABBYY.Он находится в бета-версии, поэтому сейчас он полностью бесплатен.Я работаю @ ABBYY и могу предоставить вам дополнительную информацию о наших продуктах, если это необходимо.Я отправил изображение, которое вы прикрепили к нашему SDK, и получил ответ:

Maximal size: lall (35)
...