Поиск регулярного выражения в PDF с PDFminer (python) не работает - PullRequest
1 голос
/ 24 марта 2020

Я пытаюсь найти вхождения регулярного выражения в коротком PDF. Тем не менее, это не работает. Я не понимаю почему, потому что, если я пытаюсь найти простую строку, у меня нет проблем. Текст отображается правильно. Вот мой код:

from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfpage import PDFPage
from io import StringIO
import re

def convert_pdf_to_txt(path):
    #\[\s*prima(?!\S)regex = re.compile(r"\[(\s)prima(?!\S)")

    rsrcmgr = PDFResourceManager()
    retstr = StringIO()
    codec = 'utf-8'
    laparams = LAParams()
    device = TextConverter(rsrcmgr, retstr, codec=codec, laparams=laparams)
    fp = open(path, 'rb')
    interpreter = PDFPageInterpreter(rsrcmgr, device)
    password = ""
    maxpages = 0
    caching = True
    pagenos=set()

    for page in PDFPage.get_pages(fp, pagenos, maxpages=maxpages, password=password,caching=caching, check_extractable=True):

        interpreter.process_page(page)

    text = retstr.getvalue()

    fp.close()
    device.close()
    retstr.close()
    reg = re.compile(r"\[(\s)prima(?!\S)")
    matches = re.findall(reg, text)
    return matches


print(convert_pdf_to_txt("fel_split.pdf"))

Это мое регулярное выражение: (r"\[(\s)prima(?!\S)") Я хочу найти "[prima".

1 Ответ

0 голосов
/ 24 марта 2020

Может быть, есть несколько пробелов? Попробуйте это: r"\]\s*prima\b"

UPD: и, как видно из образца документа, следует использовать другую скобку: ] вместо [.

...