Question

Я работаю в проекте PDF, где мне нужно взять весь текст из PDF. У меня возникли некоторые проблемы при декодировании шрифта Identity-H с использованием таблицы словаря toUnicode из самого PDF-файла. toUnicode обеспечивает преобразование символов в шестнадцатеричный код Unicode, но не предоставляет заглавные CID-символы для Unicode (в таблице). Так есть ли способ, который может использовать строчные буквы unichar перед отображением процесса в unicode с помощью таблицы?

Можно ли использовать смещение между <000C> <0042> для вычисления символа в верхнем регистре?

Таблица юникодов.

57 beginbfchar
<0001> <0020>
<0002> <0021>
<0003> <0026>
<0004> <2019>
<0005> <002C>
<0006> <002D>
<0007> <002E>
<0008> <003A>
<0009> <003F>
<000A> <0040>
<000B> <0041>
<000C> <0042>
<000D> <0043>
<000E> <0044>
<000F> <0045>
<0010> <0046>
<0011> <0047>
<0012> <0048>
<0013> <0049>
<0014> <004A>
<0015> <004B>
<0016> <004C>
<0017> <004D>
<0018> <004F>
<0019> <0050>
<001A> <0052>
<001B> <0053>
<001C> <0054>
<001D> <0055>
<001E> <0057>
<001F> <0059>
<0020> <2018>
<0021> <0061>
<0022> <0062>
<0023> <0063>
<0024> <0064>
<0025> <0065>
<0026> <0066>
<0027> <0067>
<0028> <0068>
<0029> <0069>
<002A> <006A>
<002B> <006B>
<002C> <006C>
<002D> <006D>
<002E> <006E>
<002F> <006F>
<0030> <0070>
<0031> <0072>
<0032> <0073>
<0033> <0074>
<0034> <0075>
<0035> <0077>
<0036> <0079>
<0037> <007A>
<0038> <FB01>
<0039> <00FC>
endbfchar

таблица не предоставила глиф, который отображается в верхний регистр символов. Так как показать характер?

Lunayo · Answer 1 · 27 октября 2011

Я решил проблему, проблема в CGPDFStringCopyTextString ().этот метод получить строку из CGPDFStringRef получил несколько странных байтов, которые я не хотел.Поэтому вместо этого я попытался получить инструкцию байта, используя

NSMutableString *unicodeString = [NSMutableString string];
    for (NSUInteger i = 0; i < [data length]; i++) {
        unsigned char byte;
        [data getBytes:&byte range:NSMakeRange(i, 1)];
        unichar unicodeChar = byte;
        [unicodeString appendFormat:@"%c",unicodeChar];
    }
return unicodeString;

Получение текста в PDF с помощью toUnicode

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Получение текста в PDF с помощью toUnicode

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов