Читать PDF с C - PullRequest
       30

Читать PDF с C

4 голосов
/ 21 апреля 2009

Я хочу иметь возможность читать содержимое PDF-файлов. Мне нужно сделать это с C на Linux.

Чем ближе я могу добраться до этого, тем здесь но я думаю, что Хару может создавать только PDF-файлы и не может их читать (не уверен на 100%).

PS: мне нужен только простой текст из pdf

Ответы [ 3 ]

4 голосов
/ 21 апреля 2009

Проверить libpoppler . Я никогда не использовал его для извлечения текста, просто запрашивал атрибуты PDF. Это довольно легко использовать.

2 голосов
/ 21 апреля 2009

Насколько хорошо вам нужно разобрать их? Простое извлечение строк должно быть относительно простым, а точный рендеринг сложнее. Взгляните на источник evince или ghostscript?

Это для C ++, но может быть хорошей отправной точкой для понимания структуры PDF http://www.codeproject.com/KB/cpp/ExtractPDFText.aspx (извините, неправильная ссылка раньше)

0 голосов
/ 21 апреля 2009

Другое возможное, хотя я никогда не использовал это VersyPDF. Он утверждает, что позволяет вам редактировать PDF-файлы ... http://versypdf.sybrex -systems-ltd.qarchive.org /

...