Python Получить текст с веб-страницы PDF Получить полную строку текста - PullRequest
0 голосов
/ 10 июля 2020

Я пытаюсь извлечь текст из PDF. У меня есть следующий код:

import requests
import PyPDF2
import io

url = "https://www.interlingua.com/archivos/pdf/Un%20visita%20al%20mercato%20in%20Francia.pdf"
r = requests.get(url)
f = io.BytesIO(r.content)
reader = PyPDF2.PdfFileReader(f)
contents = reader.getPage(1).extractText()
print(contents)

Однако кажется, что этот метод обрезает строки и создает новую строку всякий раз, когда она превышает количество символов. Например, код выводит

Femina 1:
Io ama comprar le legumines fresc, le fructos fresc
 e
Πin tote saisones Πle legumines pro le suppa. Io 
ama
legumines.

В то время как в соответствии с pdf каждая строка должна выглядеть как

Femina 1:
Io ama comprar le legumines fresc, le fructos fresc e
– in tote saisones – le legumines pro le suppa. Io ama
legumines

Как вы можете видеть, кажется, что код автоматически заканчивает строку после определенное количество символов в строке. Есть ли способ сделать так, чтобы он извлекал всю строку текста вместо остановки строки после того, как она достигает счетчика символов?

...