Обнаружение текста изображения - PullRequest
3 голосов
/ 07 апреля 2010

Я получил изображения в оттенках серого, сделанные дешевой камерой, и мне нужно сделать программу OCR.Основная проблема - это шум или объекты, которые не являются текстом, но присутствуют в двоичном изображении.Теперь я думаю об извлечении текста из изображения.

Мне нужен хороший алгоритм для этого.Можете ли вы предложить какой-нибудь действительно хороший?Например, если изображение содержит черный цветной текст и что-то вроде черной линии, тогда этот алгоритм будет выделять только текст без строки.

1 Ответ

2 голосов
/ 07 марта 2011

Вы описываете два типа шума, который хотите удалить. (Между прочим, страница википедии для снижения шума не плохая, посмотрите в разделе «в изображениях»).

Один тип шума нечетных точек. Это часто называют "спекл" или "соль и перец" шум, и обычно удаляется с помощью какого-то усредняющего фильтра. На mathworks .

есть хорошая страница с описанием некоторых алгоритмов для этого.

Второй тип - строки. Это сложнее, и я бы не стал описывать это как шум, это зависело бы от типа входного изображения. Этот документ кажется подходящим, но он не доступен бесплатно онлайн, поэтому вам, возможно, придется купить его или пойти в местную университетскую библиотеку.

Возможно, вы также захотите взглянуть на this , который можно загрузить из многих мест, но на самом деле он предназначен для кинофильмов (видео), поэтому, вероятно, не то, что вам нужно.

...