Я хочу найти (предпочтительно) пакет OCR с открытым исходным кодом (для любой ОС), который способен обрабатывать новый набор символов.
Язык - латинский, но с некоторыми писцовыми аббревиатурами, около 10 разных аббревиатур, которых нет в Юникоде.
Текст был напечатан с использованием специально разработанных шрифтов, и у меня есть изображения текста в высоком разрешении.
Я предполагаю, что понадобится некоторое обучение, сначала чтобы сопоставить сокращенные писцы с ASCII, а затем предположительно корпусно-ориентированное обучение для программного обеспечения, чтобы узнать, где сокращения появляются в словах.
Может ли кто-нибудь порекомендовать (желательно) пакет с открытым исходным кодом, способный справиться с этим?