Как конвертировать PDF-текст, который использует встроенные шрифты c # - PullRequest
0 голосов
/ 21 марта 2012

Я конвертирую pdf файлы в текст, используя iTextSharp, однако я обнаружил, что если в PDF есть встроенные шрифты или шрифты OpenType, я не могу получить текст из PDF.Есть ли решение для этого?Мне просто нужно преобразовать в текст.Любая помощь приветствуется.Спасибо!

Ответы [ 2 ]

3 голосов
/ 21 марта 2012

Как человек, который обрабатывает тысячи случайных PDF-файлов из разных клиентов каждый месяц, XpdfText , безусловно, является лучшей библиотекой для извлечения текста, по моему опыту. Мы также используем iTextSharp для различных задач, но не нашли такого же хорошего для извлечения текста.

0 голосов
/ 23 марта 2012

Краткий ответ

Скорее всего, файлы не созданы с достаточным количеством информации для правильного извлечения текста.

Пожалуйста, посмотрите на мой более длинный ответ для несколько связанного вопроса .

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...