Я пытался извлечь текст из PDF-файлов, я использую PyPDF2 с python и извлекаю текст, но сейчас я пытаюсь извлечь текст из PDF-файлов без копирования. он возвращает мне пустую строку.
Я конвертирую простой копируемый PDF в не копируемый PDF онлайн здесь: https://online-pdf-no-copy.com/
вот мой код:
from PyPDF2 import PdfFileReader
def get_info(path):
with open(path, 'rb') as f:
pdf = PdfFileReader(f)
if pdf.isEncrypted:
pdf.decrypt('')
page = pdf.getPage(1)
# print(page)
print('Page type: {}'.format(str(type(page))))
text = page.extractText()
print(text)
if __name__ == '__main__':
path = 'pdfs/finalNoCopy.pdf'
get_info(path)
Мой Вывод:
Page type: <class 'PyPDF2.pdf.PageObject'>
Process finished with exit code 0
это дает мне пустую строку.