CGPDFScanner и Adobe-Japan1 - PullRequest
       34

CGPDFScanner и Adobe-Japan1

1 голос
/ 19 мая 2011

Я использую CGPDFScanner для извлечения текста из PDF.

Во время вызова моего TJ оператора обратного вызова текущий шрифт имеет CIDSystemInfo->Registry значение «Adobe» и CIDSystemInfo->Ordering значение «Japan1». то есть набор символов "Adobe-Japan1".

Как использовать этот факт для преобразования всего текста, который я нашел с помощью оператора Tj, в юникод?

Я уверен, что я не вижу здесь дрова для деревьев.

1 Ответ

0 голосов
/ 12 августа 2011

Вы можете использовать файлы CMAP от Adobe для повторного сопоставления Japan1 с юникодом.Также посмотрите на «Дополнение», чтобы получить правильный файл.

http://opensource.adobe.com/wiki/display/cmap/Downloads

...