Модуль PyPDF2 и зашифрованные файлы PDF - PullRequest
0 голосов
/ 21 октября 2019

В настоящее время я использую PyPDF2 для работы с PDF-файлами в Python.

Когда я запускаю скрипт для загрузки некоторых PDF-файлов и извлечения некоторых ключевых слов из PDF-файлов, я не могу:

PdfReadError: File has not been decrypted

Итак, чтобы (попробуйте и) обойти это, я реализую:

if pathObj.isEncrypted:
        pathObj.decrypt('')

Однако я тогда столкнулся с:

NotImplementedError: only algorithm code 1 and 2 are supported

Теперь явроде понимаю, что ошибки говорят мне. Что я не понимаю, так это тот факт, что ни один из моих PDF-файлов не зашифрован

Кто-нибудь знает, почему файлы, которые не зашифрованы , по-видимому, зашифрованы? Это какая-то проблема с PyPDF2?

Приветствия

1 Ответ

0 голосов
/ 21 октября 2019

Похоже, что эти PDF-файлы зашифрованы 128-битным типом AES. Тем не менее, они все еще могут использоваться в Adobe, но не с PyPDF2.

Чтобы обойти проблему, вам необходимо установить:

qpdf

и добавить к коду:

qpdf, --password=" ", --decrypt, in_put.pdf, out_put.pdf
...