Извлечение текста, закодированного в Identity-H, с помощью iText - PullRequest
0 голосов
/ 09 ноября 2011

Я пытаюсь извлечь текст из файла PDF.Текст выбирается в Acrobat.Acrobat перечисляет шрифт ArialUnicodeMS с типом: TrueType (CID) и кодировкой: Identity-H.

Использование фрагмента

PdfReader reader = new PdfReader(filePath);
String content = PdfTextExtractor.getTextFromPage(reader, 1);

Я получаю что-то обратно, но это не читается при выводе на стандартный выводили в файл (вывод выглядит как пустые символы).Как извлечь текст в кодировке Identity-H?

1 Ответ

0 голосов
/ 10 ноября 2011

Это длинный снимок, но вы пытались установить свой pdf на версию 1.2, кодировка identity-H - это двухбайтовая кодировка шрифтов, она используется в основном для азиатских шрифтов и всех PDF-файлов, созданных Indesign.

Если вы не используетев вашем pdf нет таких функций, как градиенты, прозрачность, вы можете попробовать это (сделайте резервную копию вашего pdf, прежде чем вы это сделаете, как я уже говорил, прежде чем это будет далеко, просто подумайте вслух)

...