Мой экземпляр CGPDFScanner
сканирует тестовый файл PDF.
В данный момент текущий словарь шрифтов имеет Encoding
значение Identity-H
и FontDescriptor
словарь с ключом FontFile2
. Этот ключ предназначен для значения потока, в словаре которого есть ключ Filter
. Значение для этого ключа FlateDecode
.
Я не уверен, как интерпретировать и использовать это (скажем, для извлечения текста в следующем блоке Tj
в Unicode). Например, могу ли я просто zlib-распаковать байты в следующем блоке Tj
? (Здесь нет ключа ToUnicode
.)
Я думал, что вся декомпрессия была выполнена по примеру CGPDFScanner
.