Как извлечь показатели из PDF (Python PDFminer)? - PullRequest
0 голосов
/ 31 марта 2020

У меня есть математические показатели, за которыми следуют слова в PDF (например, сноски, но они перед словом). Я хотел бы извлечь их без использования XML. До сих пор я использую PDFminer, который дает хорошее представление текста, но показатель степени отображается как обычное число. Для меня важно иметь этот показатель, хотя.

Код, который я использую:

from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfpage import PDFPage
from io import StringIO
import re

def convert_pdf_to_txt(path):

    rsrcmgr = PDFResourceManager()
    retstr = StringIO()
    codec = 'utf-8'
    laparams = LAParams()
    device = TextConverter(rsrcmgr, retstr, codec=codec, laparams=laparams)
    fp = open(path, 'rb')
    interpreter = PDFPageInterpreter(rsrcmgr, device)
    password = ""
    maxpages = 0
    caching = True
    pagenos=set()

    for page in PDFPage.get_pages(fp, pagenos, maxpages=maxpages, password=password,caching=caching, check_extractable=True):

        interpreter.process_page(page)

    global text
    text = retstr.getvalue()
    #return text

    fp.close()
    device.close()
    retstr.close()
#print(convert_pdf_to_txt('fel_split.pdf'))

Либо есть метод, который я не знаю, для извлечения вершин тоже или мне пришлось бы преобразовать их из pdf в Python через библиотеку во что-то другое, а не просто в число. Я не знаю, как поступить.

...