Я попытался прочитать PDF с помощью PyPDF2, а также извлечь его содержимое в .txt с помощью библиотеки pdftotext
. Используя PyPDF2, мое возвращение «пусто» (вероятно, вызвано изображением), и получение .txt дает мне файл без шаблона.
Вот моя попытка с PyPDF2:
import PyPDF2
pdfFileObj = open(path + filename, 'rb')
pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
pages = pdfReader.numPages
print(pages)
content = pdfReader.getPage(0).extractText() + '\n'
Я также пробовал это с PyPDF2:
for i in range(pages):
pageObj = pdfReader.getPage(i)
print("Page No: ",i)
text = pageObj.extractText().split(" ")
for i in range(len(text)):
print(text[i],end="\n\n")
print()
pdfFileObj.close()
Чтобы получить .txt, я использовал:
import os
import pdftotext
os.system("pdftotext {} {}".format(filepath, "test.txt"))
Пример PDF, который я пытаюсь прочитать, находится по этой ссылке:
https://www.scribd.com/document/457097291/pdf-example
Я хочу, чтобы он считывал транзакции, разделенные строками в файле:
25/03/2019 12:08 | LOST MONEY AAAAAA BBBBB CCCC | R$ 4112.38-
Есть ли способ сделать это?
Я также пытался установить pdfminer (работает Python 3.7.7), но после запуска pip install pdfminer
и получения сообщения «успешно установлен», когда я запускаю процесс импорта, я получаю сообщение «Нет модуль с именем 'pdfminer' найден '.