Я пытаюсь извлечь текст из PDF. У меня есть следующий код:
import requests
import PyPDF2
import io
url = "https://www.interlingua.com/archivos/pdf/Un%20visita%20al%20mercato%20in%20Francia.pdf"
r = requests.get(url)
f = io.BytesIO(r.content)
reader = PyPDF2.PdfFileReader(f)
contents = reader.getPage(1).extractText()
print(contents)
Однако кажется, что этот метод обрезает строки и создает новую строку всякий раз, когда она превышает количество символов. Например, код выводит
Femina 1:
Io ama comprar le legumines fresc, le fructos fresc
e
Œ in tote saisones Œ le legumines pro le suppa. Io
ama
legumines.
В то время как в соответствии с pdf каждая строка должна выглядеть как
Femina 1:
Io ama comprar le legumines fresc, le fructos fresc e
– in tote saisones – le legumines pro le suppa. Io ama
legumines
Как вы можете видеть, кажется, что код автоматически заканчивает строку после определенное количество символов в строке. Есть ли способ сделать так, чтобы он извлекал всю строку текста вместо остановки строки после того, как она достигает счетчика символов?