Я застрял с тем, как бороться с PDF здесь. Я не знаю, как черпать прямо из Интернета, и когда я загружаю локально, это полная чепуха, а не фактические текстовые данные.
Я пытался скачать с запросами, но содержимое тогда просто бесполезно.
import PyPDF2
# textract
import requests
# from nltk.tokenize import word_tokenize
# from nltk.corpus import stopwords
def get_amount(url):
data = requests.get(url)
with open('/Users/derricdonehoo/code/derric-d/price-processor/exmpl.pdf', 'wb') as f:
f.write(data.content)
Я пытаюсь выяснить, как получить данные из PDF. Будем весьма благодарны за любые предложения!