Итак, предположим, что я хотел бы извлечь текст из pdf-файла, такого как этот: https://www.lyxoretf.nl/pdfDocuments/Factsheets/RFACT_FR0010377028_EN_20190131_NLD.pdf?pfdrid_c=false&uid=4cc6aef9-9e75-46d7-9416-65cd7b2b5dd6&download=null
import io import requests from PyPDF2 import PdfFileReader url = 'https://www.lyxoretf.nl/pdfDocuments/Factsheets/RFACT_FR0010377028_EN_20190131_NLD.pdf?pfdrid_c=false&uid=4cc6aef9-9e75-46d7-9416-65cd7b2b5dd6&download=null' r = requests.get(url) f = io.BytesIO(r.content) reader = PdfFileReader(f) contents = reader.getPage(0).extractText().split('\n')
Использование кода, предоставленного в связанных ссылках, к сожалению, не возвращает текст вфайл.
Есть ли способ извлечь текст из файлов этого типа?
import fitz ## pip install PyMupdf path = r'\Factsheets_RFACT_FR0010377028_EN_20190131_NLD.pdf' ## This should be stored somewhere in your system/laptop/computer text="" doc = fitz.open(path) for page in doc: text+=(page.getText())