Как удалить верхний и нижний колонтитулы при извлечении многостраничного PDF в текст с помощью PDFminer? - PullRequest
0 голосов
/ 21 февраля 2019

Я успешно извлек текст из многостраничных PDF-файлов, используя PDFminer.six в Python, и преобразовал его в одну строку, но я хотел бы удалить верхний и нижний колонтитулы каждой страницы при извлечении PDF-файла в текст.

Пока подобные вопросы еще не дали мне ответа.Существует ли специальная функция для удаления или извлечения верхних и нижних колонтитулов?Удаление первых 7 строк и последних 7 строк на каждой странице также сделало бы работу, я думаю.

Надеюсь, кто-нибудь может мне помочь.

def pdf_to_text(pdfname):
# PDFMiner boilerplate
rsrcmgr = PDFResourceManager()
sio = StringIO()
device = TextConverter(rsrcmgr, sio, codec='utf-8', laparams=LAParams(char_margin = 20))
interpreter = PDFPageInterpreter(rsrcmgr, device)

# get text from file
fp = open(pdfname, 'rb')
for page in PDFPage.get_pages(fp):
    interpreter.process_page(page)
fp.close()
# Get text from StringIO
text = sio.getvalue()

# close objects
device.close()
sio.close()

return text
...