Создать шрифт из изображения текста - PullRequest
1 голос
/ 20 ноября 2010

Можно ли сгенерировать определенный набор шрифтов из приведенного ниже изображения?

Моя идея состоит в том, чтобы сгенерировать определенный шрифт для указанного ниже изображения текста, вручную выбирая частьизображение и сопоставление его с набором букв. Создайте для этого шрифт, а затем используйте этот шрифт, чтобы сделать его читаемым для распознавания текста. Возможно ли создание шрифта с использованием какой-либо реализации с открытым исходным кодом?Также, пожалуйста, предложите любое хорошее распознавание текста.

alt text

1 Ответ

1 голос
/ 21 ноября 2010

Abbyy FineReader 10 лучше ожидаемых результатов, но, как и следовало ожидать, запутывается, когда персонажи касаются.

Ваша проблема в том, что межстрочный интервал слишком мал. Спуски каждой строки перекрывают ограничивающие прямоугольники символов в строке непосредственно ниже. Это делает сегментацию персонажа практически невозможной, потому что персонажи соприкасаются и перекрываются. Количество комбинаций перекрывающихся символов практически невозможно обучить. Символы «g» и «y» являются худшими нарушителями.

Версия с двумя строками с интервалом в две строки, вероятно, достаточно хорошо распознается.

Индивидуальное решение, которое сегментирует и разделяет каждую строку вместе с хорошим словарем, определенно улучшит результаты. Тем не менее, некоторые ошибки будут исправлены вручную. Пользовательская процедура должна была бы работать с восходящими и спусковыми устройствами и пытаться сегментировать изображение на линии, которые затем можно подавать на приличный механизм распознавания. Одним из способов было бы проанализировать каждый символьный блоб на странице и выделить его в строку. Leptonica (www.leptonica.com - C Imaging Library), вероятно, облегчит эту работу.

Я бы не стал пробовать это без увеличения разрешения до 200 или 300 т / д.

С этим пользовательским решением обучение шрифта становится опцией, если механизм OCR изначально плохо справляется с работой.

Хорошее место для начала - Abbyy (www.abbyy.com) или Google Tesseract OCR 3.00.

Нет никаких гарантий относительно того, будет ли все это работать. Это довольно сложная страница для распознавания текста, и вам нужно выяснить, лучше ли печатать ее вручную за границей. Это зависит от количества страниц, которые нужно обработать.

...