Как извлечь тело раздела в текстовом документе?питон - PullRequest
0 голосов
/ 11 июня 2018

У меня есть документ со следующей структурой.

ВХОД: Screenshot

ВЫХОД:

Text
Text
Text
I want to extract this body

На изображении выше я хочу извлечь текст статей I и II на языке Python.Эти статьи на самом деле являются разделами, как вы можете видеть на левой навигационной панели.Это не необработанный текст, я не могу выбрать статью, это как пули.Я попытался следующий код, который я нашел в StackOverflow.

import docx
document = docx.Document("rwi.docx")

for paragraph in document.paragraphs:
    if paragraph.style.name == 'Heading 1':
        print(paragraph.text)

Но это просто печатает заголовок заголовка, но не тело (текст) заголовка.Как я могу извлечь тело заголовков?

...