Прочитайте существующий файл PDF со всей информацией о формате - PullRequest
0 голосов
/ 29 августа 2009

Я хочу прочитать существующий файл PDF, получить не только текст, но и информацию о формате, например: шрифт (полужирный, курсив ...) и абзацы ... Есть ли библиотека кода для этого, это открытый код или коммерческий?

Я в Windows и предпочитаю библиотеки C #, но C / C ++ также приемлем.

Ответы [ 3 ]

1 голос
/ 29 августа 2009

Я очень рекомендую pdflib (http://www.pdflib.com/). Он коммерческий, но также имеет облегченную версию, которую вы можете использовать бесплатно в частном порядке. Он содержит очень функциональные возможности muach и доступен для всех платформ.

0 голосов
/ 06 сентября 2016

Pdfium.Net SDK также может помочь вам. С помощью этого API вы можете получить доступ к коллекции текста, изображений и других объектов и их свойств. Обратите внимание, что я работаю в компании, которая разрабатывает этот API.

0 голосов
/ 29 августа 2009

Я бы повторил это мистеру Мейерсу. Там, кажется, их много; выполните поиск по запросу «библиотека анализатора PDF» (плюс ваш язык) в вашей любимой поисковой системе.

Несколько лучших хитов:

http://www.lowagie.com/iText/

http://metacpan.org/pod/PDF::Parse

http://podofo.sourceforge.net/

http://www.vicman.net/download/13733/ (несколько для .NET)

Обратите внимание, что если вы хотите редактировать существующий PDF, вы можете прочитать это:

http://1t3xt.info/tutorials/faq.php?branch=faq.pdf_in_general&node=replace_word

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...