Есть нечто, называемое pyPDF.
Это Pure-Python
библиотека, построенная как PDF toolkit.
Вы можете извлечь (используя extractText()
метод), а также выполнить поиск в файле PDF, используя что-то вроде следующего кода.
pdf = pyPdf.PdfFileReader(file(path, "rb"))
content = pdf.getPage(1).extractText()