Abbyy FineReader 10 лучше ожидаемых результатов, но, как и следовало ожидать, запутывается, когда персонажи касаются.
Ваша проблема в том, что межстрочный интервал слишком мал. Спуски каждой строки перекрывают ограничивающие прямоугольники символов в строке непосредственно ниже. Это делает сегментацию персонажа практически невозможной, потому что персонажи соприкасаются и перекрываются. Количество комбинаций перекрывающихся символов практически невозможно обучить. Символы «g» и «y» являются худшими нарушителями.
Версия с двумя строками с интервалом в две строки, вероятно, достаточно хорошо распознается.
Индивидуальное решение, которое сегментирует и разделяет каждую строку вместе с хорошим словарем, определенно улучшит результаты. Тем не менее, некоторые ошибки будут исправлены вручную. Пользовательская процедура должна была бы работать с восходящими и спусковыми устройствами и пытаться сегментировать изображение на линии, которые затем можно подавать на приличный механизм распознавания. Одним из способов было бы проанализировать каждый символьный блоб на странице и выделить его в строку. Leptonica (www.leptonica.com - C Imaging Library), вероятно, облегчит эту работу.
Я бы не стал пробовать это без увеличения разрешения до 200 или 300 т / д.
С этим пользовательским решением обучение шрифта становится опцией, если механизм OCR изначально плохо справляется с работой.
Хорошее место для начала - Abbyy (www.abbyy.com) или Google Tesseract OCR 3.00.
Нет никаких гарантий относительно того, будет ли все это работать. Это довольно сложная страница для распознавания текста, и вам нужно выяснить, лучше ли печатать ее вручную за границей. Это зависит от количества страниц, которые нужно обработать.