Исключение содержимого заголовка и нижнего колонтитула страницы файла PDF при извлечении текста? - PullRequest
0 голосов
/ 27 августа 2018

Можно ли исключить contents of footers and headers of a page из файла PDF при извлечении из него текста. Поскольку это содержимое наименее важно и почти избыточно.

Примечание. Для извлечения текста из файла .pdf я использую пакет PyPDF2 в версии python = 3.7.

Как исключить содержимое нижних и нижних колонтитулов в PyPDF2. Любая помощь приветствуется.

Фрагмент кода выглядит следующим образом:

import PyPDF2

def Read(startPage, endPage):
    global text
    text = []
    cleanText = " "
    pdfFileObj = open('C:\\Users\\SIBA\\Desktop\\req\\req\\0000 - gamma j.pdf', 'rb')
    pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
    num_pages = pdfReader.numPages
    print(num_pages)
    while (startPage <= endPage):
        pageObj = pdfReader.getPage(startPage)
        text += pageObj.extractText()
        startPage += 1
    pdfFileObj.close()
    for myWord in text:
        if myWord != '\n':
           cleanText += myWord
    text = cleanText.strip().split()
    print(text)

Read(1, 1)
...