PyPDF4 не может извлекать данные из указанного c файла - PullRequest
0 голосов
/ 09 июля 2020

Я скопировал много отчетов о covid из Аргентины, цель состоит в том, чтобы создать covid dashboar с официальными данными. Я использую PyPDF4 для извлечения текста, но конкретный файл кажется пустым. Он визуализируется аналогично другим отчетам.

Не могли бы вы рассказать мне об этом? Где хранятся данные в этом случае?

Файл находится в https://www.argentina.gob.ar/sites/default/files/28-03-20-reporte-matutino-covid-19.pdf

from PyPDF4 import PdfFileReader

pdf_file = open('28-03-20-reporte-matutino-covid-19.pdf', 'rb')
pdf = PdfFileReader(pdf_file)
print(pdf.getDocumentInfo())

pag1 = pdf.getPage(0)
print(pag1.extractText())

pdf_file.close()

Это дает

{'/Producer': 'Skia/PDF m83'}
''

Также я попробуйте с PyPDF2 с тем же результатом.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...