Python чтение PDF - PullRequest
       10

Python чтение PDF

0 голосов
/ 19 апреля 2020

Я попытался прочитать PDF с помощью PyPDF2, а также извлечь его содержимое в .txt с помощью библиотеки pdftotext. Используя PyPDF2, мое возвращение «пусто» (вероятно, вызвано изображением), и получение .txt дает мне файл без шаблона.

Вот моя попытка с PyPDF2:

import PyPDF2

pdfFileObj = open(path + filename, 'rb')
pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
pages = pdfReader.numPages
print(pages)
content = pdfReader.getPage(0).extractText() + '\n'

Я также пробовал это с PyPDF2:

for i in range(pages):
   pageObj = pdfReader.getPage(i)
   print("Page No: ",i)
   text = pageObj.extractText().split(" ")    
   for i in range(len(text)):
      print(text[i],end="\n\n")
      print()
pdfFileObj.close()

Чтобы получить .txt, я использовал:

import os
import pdftotext

os.system("pdftotext {} {}".format(filepath, "test.txt"))

Пример PDF, который я пытаюсь прочитать, находится по этой ссылке:
https://www.scribd.com/document/457097291/pdf-example

Я хочу, чтобы он считывал транзакции, разделенные строками в файле:

25/03/2019 12:08 | LOST MONEY AAAAAA BBBBB CCCC | R$ 4112.38-

Есть ли способ сделать это?

Я также пытался установить pdfminer (работает Python 3.7.7), но после запуска pip install pdfminer и получения сообщения «успешно установлен», когда я запускаю процесс импорта, я получаю сообщение «Нет модуль с именем 'pdfminer' найден '.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...