Если вы ищете простое решение, ознакомьтесь с пакетом tika, который очень удобен для чтения PDF-файлов.
from tika import parser
raw = parser.from_file('sample.pdf')
print(raw['content'])
Многостраничный PDF-файл может быть извлечен в виде текста на одной странице, а не на отдельной странице.число в качестве аргумента с использованием кода ниже
import PyPDF2
import collections
pdf_file = open('samples.pdf', 'rb')
read_pdf = PyPDF2.PdfFileReader(pdf_file)
number_of_pages = read_pdf.getNumPages()
c = collections.Counter(range(number_of_pages))
for i in c:
page = read_pdf.getPage(i)
page_content = page.extractText()
print page_content.encode('utf-8')