У меня есть серия документов ex-PDF (научных / технических) с символами, закодированными как векторная графика, а не в семействе шрифтов. Как преобразовать векторный поток в символы, используя решения с открытым исходным кодом?
Я рад любым сообщениям об успешных решениях. Они могут включать в себя:
- машинное обучение для обнаружения оригинального семейства шрифтов
- запись потока на холст и использование OCR
- эвристика, основанная на восстановлении символов по штрихам
Персонажи, вероятно, довольно "простые" (многие из них sanserif), и я был бы рад восстановлению в ANSI (символы 32-127)
ОБНОВЛЕНИЕ: [для информации SO читателей; не влияет на награду].
Я извлекал векторы из одного примера, и они состоят из обводки, обрисовывающей в общих чертах глиф, так что даже простые глифы, такие как «I», являются «полыми». Я подозреваю, что это обычно верно для всех векторных шрифтов. Я проверил, что несколько экземпляров одного и того же символа имеют одинаковые внутренние координаты, и это можно использовать для поиска и различения шрифтов (незначительные различия будут отображаться в десятичных разрядах). Если шрифты масштабируются точно, и если у нас есть координаты шрифтов (с учетом авторских прав), то поиск их внутренних координат является мощным подходом. Мне было бы интересно, если бы кто-нибудь попробовал это.