Question

Я хочу найти указанное c регулярное выражение в документе DOCX. Я установил python-docx, и я могу найти строки в моем тексте. Однако я хочу использовать регулярные выражения.

Пока мой код:

import re
from docx import Document
doc = Document('categoriemanzoni.docx')
match = re.search(r"\[(['prima']+(?!\S))", doc)

for paragraph in doc.paragraphs:
    paragraph_text = paragraph.text
    if match in paragraph.text:
        print('ok')

Мне кажется, что он также не читает все параграфы. Как это исправить?

Tim Pietzcker · Answer 1 · 14 марта 2020

Ваш код применяет регулярное выражение (которое само по себе неисправно) в неправильном месте. Вы, вероятно, хотите что-то вроде этого:

import re
from docx import Document
doc = Document('categoriemanzoni.docx')
regex = re.compile(r"\[prima(?!\S)")

for paragraph in doc.paragraphs:
    if regex.search(paragraph.text):
        print('ok')

Как использовать регулярные выражения с python docx?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как использовать регулярные выражения с python docx?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы