Неудачная попытка извлечь текстовые данные из PDF - PullRequest
0 голосов
/ 04 апреля 2020

Я пытаюсь написать небольшой фрагмент кода Python для извлечения данных из британских отчетов сообщества Google Mobility в файл CSV.

Для этого я использую этот код:

import PyPDF2

FILE_PATH = '....2020-03-29_GB_Mobility_Report_en.pdf'
file = open(FILE_PATH, 'rb')
fileReader = PyPDF2.PdfFileReader(file)

for each in range(fileReader.numPages):
     print(fileReader.getPage(each).extractText())

Однако, когда я пытаюсь напечатать содержимое каждой страницы, он не печатает текст. Код открывает правильный файл, поскольку он дает правильное количество страниц. Почему дело и как я могу это исправить?

1 Ответ

0 голосов
/ 04 апреля 2020

Я не могу получить текст для извлечения, используя PyPDF2 , но я могу заставить его извлечь с помощью tika .

from tika import parser

parsedPDF = parser.from_file('2020-03-29_GB_Mobility_Report_en.pdf')
pdf = parsedPDF["content"]
pdf = pdf.replace('\n\n', '\n')
print(pdf)

Вот кое-что, что я ранее писал о извлечении PDF: Python Извлечение данных из зашифрованного PDF

...