Я пытаюсь экспортировать изображения из файла большого слова в ppt.
Я могу скопировать изображения в папку благодаря:
import zipfile
z = zipfile.ZipFile(docx_path)
all_files = z.namelist()
images = sorted(list(filter(lambda x: x.startswith('word/media/'), all_files)))
for image_name in images:
z.extract(image_name, r'./Temp/')
Но это не удовлетворяет:
1) изображения все еще находятся в текстовом документе
2) легенда изображений все еще находится в документе
В идеале я хотел бы заменить изображение и его легенду на индекс / номер изображения ...
С:
from docx import Document
documnet=Document(docx_path)
para=documnet.paragraphs
for par in para:
print (par.text)
Я могу поймать текст абзацев, но не текст легенд. Если бы я мог поймать легенды, я мог бы как-то застегнуть их с изображениями и попытаться что-то сделать.
Любая идея ?