Question

Я хочу найти (предпочтительно) пакет OCR с открытым исходным кодом (для любой ОС), который способен обрабатывать новый набор символов.

Язык - латинский, но с некоторыми писцовыми аббревиатурами, около 10 разных аббревиатур, которых нет в Юникоде.

Текст был напечатан с использованием специально разработанных шрифтов, и у меня есть изображения текста в высоком разрешении.

Я предполагаю, что понадобится некоторое обучение, сначала чтобы сопоставить сокращенные писцы с ASCII, а затем предположительно корпусно-ориентированное обучение для программного обеспечения, чтобы узнать, где сокращения появляются в словах.

Может ли кто-нибудь порекомендовать (желательно) пакет с открытым исходным кодом, способный справиться с этим?

Yahia · Answer 1 · 26 ноября 2011

AFAIK нет библиотеки (бесплатной или коммерческой), которую можно использовать как есть для того, что вы описываете (язык с символами, не представляемыми Unicode) ... НО в качестве хорошей отправной точки есть OCR с открытым исходным кодом, называемый Тессеракт , который вы можете взять и изменить для своего особого сценария ... другой интересной базой может быть OCROpus ... но будьте осторожны: это потребует много работы.

Пакет OCR с открытым исходным кодом, который может обрабатывать неизвестные символы?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пакет OCR с открытым исходным кодом, который может обрабатывать неизвестные символы?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы