У меня есть документ в формате PDF, который содержит различные разделы с текстом / цифрами в каждом разделе.Пример:
Раздел 1.1 (текст в этом разделе содержит информацию о продукте, стоимости, количестве, адресе)
Раздел 1.2 (текст в этом разделе)
Iхотите извлечь текст из определенного раздела и ввести результаты в лист Excel.
У меня есть следующий код, но я не уверен, как продвигаться дальше, я действительно мог бы использовать некоторую помощь!
from pdfminer.layout import LAParams, LTTextBox
from pdfminer.pdfpage import PDFPage
from pdfminer.pdfinterp import PDFResourceManager
from pdfminer.pdfinterp import PDFPageInterpreter
from pdfminer.converter import PDFPageAggregator
fp = open('1234.pdf', 'rb')
rsrcmgr = PDFResourceManager()
laparams = LAParams()
device = PDFPageAggregator(rsrcmgr, laparams=laparams)
interpreter = PDFPageInterpreter(rsrcmgr, device)
pages = PDFPage.get_pages(fp,check_extractable=False)
for page in pages:
print('Processing next page...')
interpreter.process_page(page)
layout = device.get_result()
for lobj in layout:
if isinstance(lobj, LTTextBox):
x, y, text = lobj.bbox[0], lobj.bbox[3], lobj.get_text()
print('At %r is text: %s' % ((x, y), text))
Часть моего результата включает в себя:
At (88.91967773611474, 629.9477480208004) is text: b. An evaluation of the increase in knowledge and or capability of the attendee
At (88.91967773611476, 607.1477571408004) is text: c. An evaluation of the extent and scale of the improvement in the attendee’s
At (106.91904463636513, 593.3477626608005) is text: performance/capability after the training.
Я просто хочу получить информацию в разделе "c".