OCR для известного шрифта - PullRequest
       7

OCR для известного шрифта

10 голосов
/ 02 сентября 2010

Я ищу OCR-библиотеку, которую можно параметризировать с помощью шрифта, потому что я всегда это знаю и считаю, что результаты распознавания будут намного лучше.

Кто-нибудь знает?

Ответы [ 3 ]

2 голосов
/ 04 сентября 2010

Большинство механизмов OCR справятся с этой ситуацией достаточно хорошо. На самом деле механизмы распознавания не смущаются, если на странице есть только один шрифт, который можно распознать. Странно, но верно в моем опыте.

Если механизм распознавания может в первую очередь прочитать ваш шрифт, я бы просто использовал его и не беспокоился об этом. Есть лучшие варианты для улучшения распознавания.

Многие механизмы распознавания позволяют вам установить некоторые параметры распознавания, чтобы помочь улучшить распознавание, такое как фиксированная ширина или пропорциональная, с засечками или без засечек, машинная или ручная печать. Вы также можете выбрать подмножество символов, таких как прописные или цифры только для значительного улучшения результатов. То есть если у вас только числовые символы, то символ 0 (ноль) никогда не может быть перепутан с 'O' или 'o' или 'Ø'. Вы найдете, что эти подсказки будут более эффективными, чем возможность выбрать точный тип шрифта для OCR.

Другие движки позволят вам обучить ваш движок OCR работе с новыми шрифтами, и это значительно поможет, если у вас странный шрифт.

Если качество изображения хорошее, а шрифты чистые и приличного размера, я бы порекомендовал использовать Tesseract OCR от Google и OCROpus как , предложенное Майклом Миором . Это бесплатно и хорошо работает на чистый и понятный текст. Если текст немного сложен, то, безусловно, есть лучшие механизмы распознавания, такие как ABBYY, Prime Recognition, Omnipage и многие другие, хотя они будут стоить денег.

2 голосов
/ 02 сентября 2010

Выезд OCRopus . Он с открытым исходным кодом и спонсируется Google :) Я не уверен, что он позволит выбрать определенный шрифт, но, похоже, он дает хорошие результаты независимо от этого.

0 голосов
/ 26 декабря 2013

Это, по-видимому, только Windows, и в основном он не ориентирован на распознавание текста, но в распознавании симбы есть методы, требующие знания используемого шрифта.

...