Я использую пакет docx для извлечения элементов из текстового документа и хочу сохранить их в определенном формате XML.
doc = docx.Document("sample.docx")
paras = doc.paragraphs
sample.docx
содержит заголовки, стандартный текст, изображения, гиперссылки,списки и таблицы.
Когда я распечатываю различные стили в документе, кажется, что я легко могу извлечь заголовки и стандартные текстовые компоненты. то есть следующее дает мне такие стили, как Heading, Normal, Body Text, Heading 2, Spacer, List paragraph
и т. д.
for p in paras:
print(p.style.name)
Может кто-нибудь пролить свет на то, как я могу извлечь следующие компоненты?
- Изображения: Как извлечькартинки? Я нашел похожий ответ здесь .
- Гиперссылки: Как узнать, что в абзаце есть ссылка?
- Списки: некоторые списки извлекаются в стиле
List paragraph
, а другие списки не извлекаются - ТаблицыЯ обнаружил, что для таблиц необходимо извлечь
doc.tables
. Но тогда как мне поддерживать порядок элементов в оригинальном документе?