Как извлечь изображения в 2 или более копий в файл .docx - PullRequest
0 голосов
/ 09 апреля 2020

У меня есть .docx со смесью текста и изображений (некоторые дубликаты, а некоторые нет). Я хочу, чтобы скрипт в конечном итоге возвращал только те изображения, которые появляются как минимум дважды в текстовом документе (т. Е. Изображения, которые появляются один раз, могут быть отброшены).

Я пытался использовать ручное извлечение, используя само слово Microsoft и docx2txt (показано ниже), и они извлекают все изображения в документе word, но он автоматически удаляет дубликаты изображений (т.е. только одну копию каждого уникального изображения заканчивается в новой папке). Так что, в некотором смысле, это противоречит тому, что я в конечном итоге собираюсь сделать. Есть ли способ решить эту проблему или есть другой подход, который лучше?

import docx2txt

text = docx2txt.process(r"C:\Users\name\Documents\document_with_image.docx", r'C:\Users\name\Documents\folder_of_choice') 

Большое спасибо!

...