Извлечение текста из определенных областей PDF-страницы? - PullRequest
0 голосов
/ 06 мая 2019

Я пытаюсь разобрать PDF-книгу, но мне нужен только основной корпус БЕЗ нижних колонтитулов, заголовков или сносок.

Я просмотрел документацию pdfminer, но мне пока не удалось. Вот код, который я использую для получения текста:

from pdfminer.converter import TextConverter
from pdfminer.pdfinterp import PDFPageInterpreter
from pdfminer.pdfinterp import PDFResourceManager
from pdfminer.pdfpage import PDFPage

with open(pdfname, 'rb') as fh:
    for page in PDFPage.get_pages(fh, caching=True, check_extractable=True):
        resource_manager = PDFResourceManager()
        fake_file_handle = io.StringIO()
        converter = TextConverter(resource_manager, fake_file_handle)
        page_interpreter = PDFPageInterpreter(resource_manager, converter)
        page_interpreter.process_page(page)
        text = fake_file_handle.getvalue()
...