Как определить, содержит ли конкретный шрифт определенный символ в PDF :: API2 - PullRequest
4 голосов
/ 21 февраля 2012

Я использую PDF::API2 в своем приложении Perl для встраивания вывода OCR за соответствующим изображением, позволяя искать полученный PDF-файл, так как вывод OCR можно извлечь с помощью pdftotext.

В данный момент, как только приложение увидит не-ASCII символ в выводе OCR, оно переключится с основных шрифтов PDF на TTF.Тем не менее, это действительно хакерский, так как основные шрифты включают в себя большинство символов Западной Европы.TTF необходим только для греческого, русского, японского и т. Д.

Как определить, содержит ли конкретный шрифт определенный символ (включая таблицу CMAP, чтобы можно было извлекать с помощью pdftotext)?

1 Ответ

1 голос
/ 09 июля 2012

Вы пробовали специфичные для глифа методы?

http://search.cpan.org/dist/PDF-API2/lib/PDF/API2/Resource/BaseFont.pm#GLYPH_RELATED_METHODS

В противном случае, возможно, визуализируете глиф (в отдельный документ) и измеряете его?

...