Как извлечь первый абзац документа PDF с помощью Perl's CAM :: PDF? - PullRequest
1 голос
/ 23 октября 2009

Как извлечь первый абзац документа PDF с помощью Perl's CAM :: PDF ?

Ответы [ 2 ]

1 голос
/ 28 октября 2009
print CAM::PDF->new('file.pdf')->getPageText(1);

доставит вам весь текст со страницы. Но CAM :: PDF определенно не лучший инструмент для этой конкретной работы (я автор). Я добавил извлечение текста в качестве прихоти, чтобы посмотреть, смогу ли я это сделать.

0 голосов
/ 23 октября 2009

Простой PDF действительно не является языком разметки. Текст рисуется в определенных местах. Существует нечто, называемое Tagged PDF , и если ваши документы помечены, ваша работа может быть проще.

Я был бы склонен запускать документы через PDF для преобразования текста и извлекать первый фрагмент текста из этого, если текст сохранен как текст в вашем PDF, а не изображения.

...