Question

У меня есть документ со следующей структурой.

ВХОД:

ВЫХОД:

Text
Text
Text
I want to extract this body

На изображении выше я хочу извлечь текст статей I и II на языке Python.Эти статьи на самом деле являются разделами, как вы можете видеть на левой навигационной панели.Это не необработанный текст, я не могу выбрать статью, это как пули.Я попытался следующий код, который я нашел в StackOverflow.

import docx
document = docx.Document("rwi.docx")

for paragraph in document.paragraphs:
    if paragraph.style.name == 'Heading 1':
        print(paragraph.text)

Но это просто печатает заголовок заголовка, но не тело (текст) заголовка.Как я могу извлечь тело заголовков?

Как извлечь тело раздела в текстовом документе?питон

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Как извлечь тело раздела в текстовом документе?питон

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы