PDF-файл с питоном - PullRequest
       28

PDF-файл с питоном

2 голосов
/ 10 марта 2011

Как можно искать слово или строку в файле PDF?

Существует ли существующий модуль для краткости?

Заранее спасибо,

1 Ответ

3 голосов
/ 10 марта 2011

Есть нечто, называемое pyPDF.
Это Pure-Python библиотека, построенная как PDF toolkit.

Вы можете извлечь (используя extractText() метод), а также выполнить поиск в файле PDF, используя что-то вроде следующего кода.

pdf = pyPdf.PdfFileReader(file(path, "rb"))
content = pdf.getPage(1).extractText()
...