CPAN Perl модуль для анализа PDF-файла - PullRequest
2 голосов
/ 14 марта 2012

Я хочу проанализировать файл PDF и извлечь из него некоторый контент. Может ли кто-нибудь перечислить какой-либо конкретный модуль Perl?

Спасибо.

1 Ответ

2 голосов
/ 14 марта 2012

Вы можете попробовать посмотреть

CAM :: PDF

или

PDF :: API3

Если вы пытаетесь разобрать текст из документа, тогда это может оказаться непрактичным.Из CAM :: PDF :: Text

Этот модуль пытается извлечь последовательный текст со страницы PDF.Это не надежный процесс, поскольку текст в формате PDF графически размещен в произвольном порядке.Этот модуль использует несколько эвристик, чтобы попытаться угадать, какой текст идет рядом с другим текстом, но может быть легко обманут, скажем, подписками, не горизонтальным текстом, изменениями шрифта, полей формы и т. Д.

...