Я пытаюсь извлечь текст с первой страницы защищенного PDF-файла. У меня нет пароля, но функция расшифровки в PyPDF2, кажется, работает нормально. Но PyPDF2 пропустил некоторые тексты при извлечении (использовал функцию extractText ()). Поэтому я хочу использовать вместо этого pdfminer (не удалось установить pdftotext на моем компьютере с Windows, поэтому пришлось использовать pdfminer). Вот текущий код:
pdfFileObj = open(fileName, 'rb')
pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
if pdfReader.isEncrypted:
pdfReader.decrypt('')
pageObject = pdfReader.getPage(0)
Тогда я хочу использовать pdfminer для чтения текста в pageObject, но не могу понять, как. Может ли кто-нибудь помочь?
Спасибо!