Question

Я использую пакет docx для извлечения элементов из текстового документа и хочу сохранить их в определенном формате XML.

doc = docx.Document("sample.docx")
paras = doc.paragraphs

sample.docx содержит заголовки, стандартный текст, изображения, гиперссылки,списки и таблицы.

Когда я распечатываю различные стили в документе, кажется, что я легко могу извлечь заголовки и стандартные текстовые компоненты. то есть следующее дает мне такие стили, как Heading, Normal, Body Text, Heading 2, Spacer, List paragraph и т. д.

for p in paras:
   print(p.style.name)

Может кто-нибудь пролить свет на то, как я могу извлечь следующие компоненты?

Изображения: Как извлечькартинки? Я нашел похожий ответ здесь .
Гиперссылки: Как узнать, что в абзаце есть ссылка?
Списки: некоторые списки извлекаются в стиле List paragraph, а другие списки не извлекаются
ТаблицыЯ обнаружил, что для таблиц необходимо извлечь doc.tables. Но тогда как мне поддерживать порядок элементов в оригинальном документе?

Расширенное форматирование в python-docx

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Расширенное форматирование в python-docx

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы