Алгоритмы обработки / улучшения изображений для распознавания документов / читаемости? - PullRequest
9 голосов
/ 03 апреля 2009

Я ищу алгоритмы, документы или программное обеспечение для улучшения факсов, изображений с камер мобильного телефона и других аналогичных источников для удобочитаемости и распознавания текста.

В основном меня интересуют простые улучшения (например, вещи, которые вы могли бы сделать с помощью ImageMagick), но мне также интересны более сложные методы. Я уже общаюсь с поставщиками, поэтому для этого вопроса я в основном ищу алгоритмы или программное обеспечение с открытым исходным кодом.

Чтобы уточнить: я не ищу программное обеспечение или алгоритмы распознавания текста; Я ищу алгоритмы для очистки изображения, чтобы оно выглядело более читабельным для человеческого глаза и могло быть использовано для распознавания текста.

Ответы [ 3 ]

5 голосов
/ 04 апреля 2009

У меня была похожая проблема, когда я писал какое-то программное обеспечение для сканирования книг; В интернете ходит программа pagetools , которая выпрямляет отсканированные страницы, используя довольно умный математический прием, называемый преобразованием Радона.

Я также написал небольшую процедуру, которая уберет пробел на странице; Алгоритмы OCR, как правило, работают намного лучше, когда им не приходится бороться с фоновым шумом. То, что я сделал, это посмотрел на светлые пиксели, которые были более чем на маленький радиус от темных, а затем повысил их до чисто белого.

Однако прошло несколько лет, поэтому у меня нет точных подробностей реализации.

4 голосов
/ 04 апреля 2009

Один простой фильтр изображений, на который стоит обратить внимание, - это «Медианный фильтр», который является очень простым, простым в применении, фильтром для очистки отсканированного / сфотографированного текста. http://en.wikipedia.org/wiki/Median_filter

2 голосов
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...