Я попытался проанализировать файл PDF с PyPDF2, но я извлекаю только около 10% текста. Для оставшихся 90% pyPDF2 возвращает только новые строки ... немного расстраивает.
Знали бы вы какие-нибудь альтернативы для Python, работающего в Windows? Я слышал о pdftotext, но, похоже, я не могу установить его, потому что мой компьютер не работает в Linux.
Есть идеи?
import PyPDF2
filename = 'Doc.pdf'
pdf_file = PyPDF2.PdfFileReader(open(filename, 'rb'))
print(pdf_file.getPage(0).extractText())