Извлечение содержимого PDF построчно с PDF2Py - PullRequest
0 голосов
/ 15 марта 2020

Я читаю файл PDF в моей программе python. Я прочитал каждую страницу с PDF2PY следующим образом:

    pdfFileObject = open(path, 'rb')
    pdfReader = PyPDF2.PdfFileReader(pdfFileObject)

    for i in range(0, pdfReader.numPages):
        pageObject = pdfReader.getPage(i)
        string = pageObject.extractText()

Дело в том, что, если у меня есть следующая информация на моей странице PDF

line1
line2

Вывод: line1line2 (без пробелов между строками). Поэтому я хотел бы читать файл не только постранично, но и построчно, чтобы я мог соединять строки вручную, добавляя пространство между ними. Я видел подобные вопросы здесь, но ни одно из найденных решений не сработало для меня.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...