python-docx Как получить содержимое / тело раздела - PullRequest
0 голосов
/ 09 мая 2019

Я использую термин «разделы Word», чтобы у каждой страницы был свой заголовок, где я отмечаю страницу такой разметкой, как {page1}.

Используя python-docx, я получаю разделы по:

doc = Document(my_file)`
doc_sections = doc.sections
doc_page_one = doc_sections[0]

Я могу получить верхний и нижний колонтитулы каждой страницы и их тексты: doc_page_one.header.paragraphs[0].text

Но я не вижу фактического содержимого / тела или форм страницы, во время отладки я не былсмог найти где они живут.

Есть ли у python-docx такая возможность?

1 Ответ

1 голос
/ 09 мая 2019

В настоящее время python-docx не имеет поддержки API для получения того, что, как я представляю, было бы "блок-элементами" (абзацы + таблицы), которые "содержатся" в определенном разделе.

Выпришлось бы перемещаться по лежащему в основе XML, если вы хотите, чтобы он был достаточно плохим, вероятно, начиная с document.__body.Вы можете понять, как это выглядит:

print(document.__body.xml)

По сути, вы будете искать w:sectPr элементов, каждый из которых заканчивается секцией.Ниже приведена более подробная информация об XML-схеме, используемой на странице анализа python-docx: https://python -docx.readthedocs.io / en / latest / dev / analysis / features / section.html

...