Я использую PDF::API2
в своем приложении Perl для встраивания вывода OCR за соответствующим изображением, позволяя искать полученный PDF-файл, так как вывод OCR можно извлечь с помощью pdftotext
.
В данный момент, как только приложение увидит не-ASCII символ в выводе OCR, оно переключится с основных шрифтов PDF на TTF.Тем не менее, это действительно хакерский, так как основные шрифты включают в себя большинство символов Западной Европы.TTF необходим только для греческого, русского, японского и т. Д.
Как определить, содержит ли конкретный шрифт определенный символ (включая таблицу CMAP, чтобы можно было извлекать с помощью pdftotext
)?