Python: Как использовать PyPDF2 для расшифровки и pdfminer для извлечения текста? - PullRequest
0 голосов
/ 04 сентября 2018

Я пытаюсь извлечь текст с первой страницы защищенного PDF-файла. У меня нет пароля, но функция расшифровки в PyPDF2, кажется, работает нормально. Но PyPDF2 пропустил некоторые тексты при извлечении (использовал функцию extractText ()). Поэтому я хочу использовать вместо этого pdfminer (не удалось установить pdftotext на моем компьютере с Windows, поэтому пришлось использовать pdfminer). Вот текущий код:

    pdfFileObj = open(fileName, 'rb')
    pdfReader = PyPDF2.PdfFileReader(pdfFileObj)

    if pdfReader.isEncrypted:
        pdfReader.decrypt('')

    pageObject = pdfReader.getPage(0)

Тогда я хочу использовать pdfminer для чтения текста в pageObject, но не могу понять, как. Может ли кто-нибудь помочь?

Спасибо!

...