Извлечение конкретного абзаца / текста из PDF - Python 3.7 - PullRequest
0 голосов
/ 18 декабря 2018

У меня есть документ в формате PDF, который содержит различные разделы с текстом / цифрами в каждом разделе.Пример:

Раздел 1.1 (текст в этом разделе содержит информацию о продукте, стоимости, количестве, адресе)

Раздел 1.2 (текст в этом разделе)

Iхотите извлечь текст из определенного раздела и ввести результаты в лист Excel.

У меня есть следующий код, но я не уверен, как продвигаться дальше, я действительно мог бы использовать некоторую помощь!

from pdfminer.layout import LAParams, LTTextBox
from pdfminer.pdfpage import PDFPage
from pdfminer.pdfinterp import PDFResourceManager
from pdfminer.pdfinterp import PDFPageInterpreter
from pdfminer.converter import PDFPageAggregator

fp = open('1234.pdf', 'rb')
rsrcmgr = PDFResourceManager()
laparams = LAParams()
device = PDFPageAggregator(rsrcmgr, laparams=laparams)
interpreter = PDFPageInterpreter(rsrcmgr, device)
pages = PDFPage.get_pages(fp,check_extractable=False)

for page in pages:
    print('Processing next page...')
    interpreter.process_page(page)
    layout = device.get_result()
    for lobj in layout:
        if isinstance(lobj, LTTextBox):
            x, y, text = lobj.bbox[0], lobj.bbox[3], lobj.get_text()
            print('At %r is text: %s' % ((x, y), text))

Часть моего результата включает в себя:

    At (88.91967773611474, 629.9477480208004) is text: b.  An evaluation of the increase in knowledge and or capability of the attendee 

At (88.91967773611476, 607.1477571408004) is text: c.  An  evaluation  of  the  extent  and  scale  of  the  improvement  in  the  attendee’s 

At (106.91904463636513, 593.3477626608005) is text: performance/capability after the training. 

Я просто хочу получить информацию в разделе "c".

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...