Количество файлов PDF, используемых в качестве подмножественных шрифтов, постоянно увеличивается, что в основном является пользовательской кодировкой. Обычно дескриптор шрифта в PDF-файле должен иметь таблицу ToUnicode, позволяющую извлечению текста декодировать кодировку шрифта и возвращать правильный текст.
Некоторые производители PDF делают это специально, чтобы предотвратить простое извлечение текста PDF для таких вещей, как финансовые отчеты. Если есть только один шрифт, то вы можете вручную декодировать шрифт, но по моему опыту я видел PDF с несколькими случайными кодировками, что делает практически невозможным автоматическое декодирование.
Один из способов проверки файлов PDF такого типа - открыть файл в Acrobat, выделить текст, скопировать его, а затем вставить его в Блокнот. Если текст искажен, то в PDF-файле используется заданный шрифт, и вы можете сделать немного больше. Если Acrobat не может извлечь текст правильно, то больше ничего не может. Это может быть и страница иероглифов.