Пакет OCR с открытым исходным кодом, который может обрабатывать неизвестные символы? - PullRequest
0 голосов
/ 26 ноября 2011

Я хочу найти (предпочтительно) пакет OCR с открытым исходным кодом (для любой ОС), который способен обрабатывать новый набор символов.

Язык - латинский, но с некоторыми писцовыми аббревиатурами, около 10 разных аббревиатур, которых нет в Юникоде.

Текст был напечатан с использованием специально разработанных шрифтов, и у меня есть изображения текста в высоком разрешении.

Я предполагаю, что понадобится некоторое обучение, сначала чтобы сопоставить сокращенные писцы с ASCII, а затем предположительно корпусно-ориентированное обучение для программного обеспечения, чтобы узнать, где сокращения появляются в словах.

Может ли кто-нибудь порекомендовать (желательно) пакет с открытым исходным кодом, способный справиться с этим?

1 Ответ

0 голосов
/ 26 ноября 2011

AFAIK нет библиотеки (бесплатной или коммерческой), которую можно использовать как есть для того, что вы описываете (язык с символами, не представляемыми Unicode) ... НО в качестве хорошей отправной точки есть OCR с открытым исходным кодом, называемый Тессеракт , который вы можете взять и изменить для своего особого сценария ... другой интересной базой может быть OCROpus ... но будьте осторожны: это потребует много работы.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...