Я успешно извлек текст из многостраничных PDF-файлов, используя PDFminer.six в Python, и преобразовал его в одну строку, но я хотел бы удалить верхний и нижний колонтитулы каждой страницы при извлечении PDF-файла в текст.
Пока подобные вопросы еще не дали мне ответа.Существует ли специальная функция для удаления или извлечения верхних и нижних колонтитулов?Удаление первых 7 строк и последних 7 строк на каждой странице также сделало бы работу, я думаю.
Надеюсь, кто-нибудь может мне помочь.
def pdf_to_text(pdfname):
# PDFMiner boilerplate
rsrcmgr = PDFResourceManager()
sio = StringIO()
device = TextConverter(rsrcmgr, sio, codec='utf-8', laparams=LAParams(char_margin = 20))
interpreter = PDFPageInterpreter(rsrcmgr, device)
# get text from file
fp = open(pdfname, 'rb')
for page in PDFPage.get_pages(fp):
interpreter.process_page(page)
fp.close()
# Get text from StringIO
text = sio.getvalue()
# close objects
device.close()
sio.close()
return text