У меня есть docx
, который я прочитал в jupyter так:
### Import libraries
import docx2txt
import os
import re
import pandas
import docx
### Read document
file_text = docx2txt.process("big_document.docx")
В этом документе несколько страниц с одинаковыми заголовками. Я хочу найти эти заголовки, а затем сгруппировать все подобные заголовки в свои собственные объекты. В следующем фрагменте все первые тридцать страниц моего документа имеют одинаковый заголовок EXAMPLE ONE
(он не в формате заголовка, только одна уникальная строка идентификации на каждой странице, которая соответствует другим 29 страницам):
### Loop to get appropriate sections, according to the re.findall()
for i in range(0, 30):
match = re.findall('EXAMPLE\sONE', file_text)
print(match[i])
re.findall()
находит каждый экземпляр EXAMPLE ONE
, но возвращает эти два слова только 30 раз. Если я добавлю re.split()
и установлю соответствующий диапазон, он вернет весь документ (несколько сотен страниц).
### Loop to get appropriate sections, according to the re.split()
for i in range(0, 30):
match = re.split('EXAMPLE\sONE', file_text)
print(match[i])
# still returns whole document, instead of just the 30 pages with the chosen header
Как мне установить код, чтобы он возвращал только страницы с соответствующими заголовками и только эти страницы? Я думаю re.split()
- это мой инструмент, но я не могу заставить его работать.
Документ имеет несколько заголовков, вплоть до EXAMPLE SEVEN
, и я собирался сделать цикл for
для каждого и return
объект. Спасибо