Извлечение номера заголовка / раздела из документа Docx с использованием python-docx - PullRequest
0 голосов
/ 10 апреля 2019

Используя пакет python-docx, я могу извлечь текст заголовка, но не номер заголовка.Я не могу найти никакого решения в Google или StackOverflow о том, как извлечь это из документа DOCX.Поэтому я создал обходной путь, чтобы самостоятельно отслеживать номера заголовков.К сожалению, алгоритм иногда теряет след.

Теперь мне интересно, есть ли лучший способ извлечь номер заголовка, используя пакет docx.

То есть для структуры сечения, например 1. foo 2. bar 2.1.Баз.

Я хочу извлечь ['1.фу ',' 2.бар ',' 2.1.baz ']

#Iterate through all paragraphs
for paragraph in target_doc.paragraphs:
    #Display all headers
    if 'Heading ' in paragraph .style.name:
        print(paragraph .text)

Пакет docx с кодом выше приводит к [' foo ',' bar ',' baz '].Кажется, он не может найти номера заголовков.

...