Как извлечь Apache FOP, созданный PDF в C #? - PullRequest
0 голосов
/ 01 октября 2011

У меня есть проблема в моем проекте c #.Я хочу извлекать сгенерированные Apache FOP PDF-файлы программно без какого-либо стороннего приложения.Я пытался использовать много библиотек, таких как PDFBox, IKVM, PDF2Text, ITextSharp, PDFSharp, чтобы извлечь файлы PDF, но не получилось.Когда я извлекаю сгенерированный FOP PDF в текстовый файл, я получаю много квадратных символов и других запутанных символов.

Мой вопрос: как мне извлечь сгенерированный FOP PDF файл в C #?Есть ли какая-нибудь библиотека (написанная на C #), которая может это сделать?

Спасибо.

1 Ответ

0 голосов
/ 01 октября 2011

Шрифты, использующие кодировку Identity-H, напрямую используют индексы глифов для отображения текста на странице.Эти шрифты требуют записи ToUnicode в словаре шрифтов (в файле PDF) для поддержки извлечения текста, в противном случае это невозможно.Проверьте Apache FOP и убедитесь, что в нем есть настройка для включения записи ToUnicode в словарь шрифтов или для удобства извлечения шрифта.

...