Вы можете попробовать посмотреть
CAM :: PDF
или
PDF :: API3
Если вы пытаетесь разобрать текст из документа, тогда это может оказаться непрактичным.Из CAM :: PDF :: Text
Этот модуль пытается извлечь последовательный текст со страницы PDF.Это не надежный процесс, поскольку текст в формате PDF графически размещен в произвольном порядке.Этот модуль использует несколько эвристик, чтобы попытаться угадать, какой текст идет рядом с другим текстом, но может быть легко обманут, скажем, подписками, не горизонтальным текстом, изменениями шрифта, полей формы и т. Д.