Расширенное форматирование в python-docx - PullRequest
0 голосов
/ 08 ноября 2019

Я использую пакет docx для извлечения элементов из текстового документа и хочу сохранить их в определенном формате XML.

doc = docx.Document("sample.docx")
paras = doc.paragraphs 

sample.docx содержит заголовки, стандартный текст, изображения, гиперссылки,списки и таблицы.

Когда я распечатываю различные стили в документе, кажется, что я легко могу извлечь заголовки и стандартные текстовые компоненты. то есть следующее дает мне такие стили, как Heading, Normal, Body Text, Heading 2, Spacer, List paragraph и т. д.

for p in paras:
   print(p.style.name)

Может кто-нибудь пролить свет на то, как я могу извлечь следующие компоненты?

  • Изображения: Как извлечькартинки? Я нашел похожий ответ здесь .
  • Гиперссылки: Как узнать, что в абзаце есть ссылка?
  • Списки: некоторые списки извлекаются в стиле List paragraph, а другие списки не извлекаются
  • ТаблицыЯ обнаружил, что для таблиц необходимо извлечь doc.tables. Но тогда как мне поддерживать порядок элементов в оригинальном документе?
...