Получить текстовые данные из PDF с Python - PullRequest
1 голос
/ 24 июня 2019

Я застрял с тем, как бороться с PDF здесь. Я не знаю, как черпать прямо из Интернета, и когда я загружаю локально, это полная чепуха, а не фактические текстовые данные.

Я пытался скачать с запросами, но содержимое тогда просто бесполезно.

import PyPDF2
#  textract
import requests
# from nltk.tokenize import word_tokenize
# from nltk.corpus import stopwords


def get_amount(url):
  data = requests.get(url)
  with open('/Users/derricdonehoo/code/derric-d/price-processor/exmpl.pdf', 'wb') as f:
    f.write(data.content)

Я пытаюсь выяснить, как получить данные из PDF. Будем весьма благодарны за любые предложения!

1 Ответ

1 голос
/ 24 июня 2019

Пожалуйста, измените ниже:

import PyPDF2
pdf_file = open('/Users/derricdonehoo/code/derric-d/price-processor/exmpl.pdf')
read_pdf = PyPDF2.PdfFileReader(pdf_file)
number_of_pages = read_pdf.getNumPages()
for i in number_of_pages:
    page = read_pdf.getPage(0)
    page_content = page.extractText()
    print page_content
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...