Извлечь текст из непечатаемого PDF python - PullRequest
0 голосов
/ 10 января 2020

Я пытался извлечь текст из PDF-файлов, я использую PyPDF2 с python и извлекаю текст, но сейчас я пытаюсь извлечь текст из PDF-файлов без копирования. он возвращает мне пустую строку.

Я конвертирую простой копируемый PDF в не копируемый PDF онлайн здесь: https://online-pdf-no-copy.com/

вот мой код:

from PyPDF2 import PdfFileReader


def get_info(path):
    with open(path, 'rb') as f:
        pdf = PdfFileReader(f)
        if pdf.isEncrypted:
            pdf.decrypt('')
        page = pdf.getPage(1)
        # print(page)
        print('Page type: {}'.format(str(type(page))))
        text = page.extractText()
        print(text)


if __name__ == '__main__':
    path = 'pdfs/finalNoCopy.pdf'
    get_info(path)

Мой Вывод:

Page type: <class 'PyPDF2.pdf.PageObject'>


Process finished with exit code 0

это дает мне пустую строку.

1 Ответ

0 голосов
/ 10 января 2020

Вы можете попробовать этот код:

import fitz ## Pip install pymupdf

text1=""
file_path = r'your_file_name_with_path.pdf'
doc = fitz.open(file_path)
for page in doc:                            
    text1+=(page.getText())
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...