Функция extractText () не возвращает текст - PullRequest
0 голосов
/ 26 января 2020
pdfFileObject = open('MDD.pdf', 'rb')
pdfReader = PyPDF2.PdfFileReader(pdfFileObject)
count = pdfReader.numPages
for i in range(count):
    page = pdfReader.getPage(i)
    print(page.extractText()

Выше мой код, и когда я запускаю скрипт, он просто выводит кучу цифр и цифр (а), а не текст файла. Может ли кто-нибудь помочь мне с этим?

1 Ответ

1 голос
/ 26 января 2020

Эта функция работает не для всех файлов PDF. Это объясняется в документации :

. Это хорошо работает для некоторых файлов PDF, но плохо для других, в зависимости от используемого генератора. Это будет уточнено в будущем. Не полагайтесь на порядок текста, выходящего из этой функции, так как он изменится, если эта функция будет сделана более сложной. : return: строковый объект Unicode.

Попробуйте свой код в этом файле . Я уверен, что это должно сработать, поэтому, похоже, проблема не в вашем коде.

Если вам действительно нужно проанализировать файлы, созданные так же, как ваш оригинальный MDD.pdf, вам нужно выбрать другой библиотека.

...