У меня есть документ со следующей структурой.
ВХОД:
ВЫХОД:
Text
Text
Text
I want to extract this body
На изображении выше я хочу извлечь текст статей I и II на языке Python.Эти статьи на самом деле являются разделами, как вы можете видеть на левой навигационной панели.Это не необработанный текст, я не могу выбрать статью, это как пули.Я попытался следующий код, который я нашел в StackOverflow.
import docx
document = docx.Document("rwi.docx")
for paragraph in document.paragraphs:
if paragraph.style.name == 'Heading 1':
print(paragraph.text)
Но это просто печатает заголовок заголовка, но не тело (текст) заголовка.Как я могу извлечь тело заголовков?