Какой идеальный шрифт для распознавания текста? - PullRequest
27 голосов
/ 25 ноября 2008

Есть ли у кого-нибудь опыт работы с разными шрифтами для OCR? Я генерирую идентификатор, а затем пытаюсь сканировать его с помощью tesseract. На данный момент я просто T & E разных шрифтов, но это кажется довольно неэффективным. Я пробовал семейство шрифтов OCR * и другие, такие как Arial и Georgia. Тессеракт обычно путают со шрифтами OCR *.

Существует ли какой-либо шрифт, специально разработанный для tesseract, или системный шрифт, который хорошо с ним работает?

Ответы [ 7 ]

16 голосов
/ 25 ноября 2008

Хорошо, поиск в Google подходит для этого, определенного шрифта OCR: Шрифт OCR

Похоже, это стандарт, принятый в 1973 году.

14 голосов
/ 02 января 2011

После множества разных шрифтов и OCR-движков Я стремлюсь получить лучшие результаты, используя Consolas . Это моноширинный шрифт, подобный OCR-A, но легче читаемый для людей. Consolas входит в состав нескольких продуктов Microsoft.

Существует также открытый исходный код шрифт Inconsolata , на который влияет Consolas. Inconsolata - хорошая замена для Consolas, особенно с учетом деталей лицензирования.

В моих тестах числа и пробелы в шрифте Calibri не всегда распознавались должным образом. OCR-A дал много ошибок чтения. Я не давал MIRC попробовать, так как большинству людей его нелегко прочитать.

Примечание : tesseract требует много испытаний и тонкой настройки, чтобы быть надежным. В нашем случае мы перешли на коммерчески лицензированный механизм OCR (ABBYY), тем более что надежность была очень важна, и нам нужно было поддерживать несколько (европейских) языков.

Обновление: 2017 31 января - изменено ' на основе Consolas ' на ' под влиянием Consolas ' из-за потенциальных проблем с авторским правом.

5 голосов
/ 03 февраля 2010

Я считаю, что Calibri работает лучше для меня. Мы ежедневно используем программное обеспечение OCR в автоматизированной системе, и после тестирования десятков шрифтов (включая некоторые специфические для OCR), что Calibri неизменно является лучшим.

Удачи.

4 голосов
/ 25 ноября 2008

Я бы, вероятно, использовал тот же шрифт, который банки используют для номеров маршрутизации в нижней части чеков:

http://morovia.com/font/micr.asp

Он был специально разработан для однозначной машиночитаемости.

2 голосов
/ 25 ноября 2008

У меня всегда был успех, просто используя времена новый римский ..

1 голос
/ 21 декабря 2017

Недавно я провел обширное тестирование в ECM Laserfiche, в котором используется Nuance OmniPage, и обнаружил, что моноширинные шрифты работают хуже по сравнению с динамически разнесенными шрифтами. Эти старые шрифты OCR работают не так хорошо, как более «нормальные» шрифты. Особенно для строк чисел с меньшим размером шрифта, таких как пункт 12.

Странно, что кто-то еще добился успеха с Калибри. Он показал очень плохие результаты в моих тестах, обычно получая похожие буквы и цифры, которые путают друг с другом. Лучшими шрифтами (среди тех, которые поставляются на компьютер с Windows с установленным Office) были Consolas, Verdana и Book Antiqua. Все динамические шрифты с засечками, где буквы и цифры выглядят четко. Консолас был чемпионом.

0 голосов
/ 19 мая 2016

В настоящее время используется Monospace. Перепробовал очень много шрифтов, но это самый точный для меня.

...