Question

Я использую CGPDFScanner для извлечения текста из PDF.

Во время вызова моего TJ оператора обратного вызова текущий шрифт имеет CIDSystemInfo->Registry значение «Adobe» и CIDSystemInfo->Ordering значение «Japan1». то есть набор символов "Adobe-Japan1".

Как использовать этот факт для преобразования всего текста, который я нашел с помощью оператора Tj, в юникод?

Я уверен, что я не вижу здесь дрова для деревьев.

steipete · Answer 1 · 12 августа 2011

Вы можете использовать файлы CMAP от Adobe для повторного сопоставления Japan1 с юникодом.Также посмотрите на «Дополнение», чтобы получить правильный файл.

http://opensource.adobe.com/wiki/display/cmap/Downloads

CGPDFScanner и Adobe-Japan1

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

CGPDFScanner и Adobe-Japan1

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы