У меня есть .docx
со смесью текста и изображений (некоторые дубликаты, а некоторые нет). Я хочу, чтобы скрипт в конечном итоге возвращал только те изображения, которые появляются как минимум дважды в текстовом документе (т. Е. Изображения, которые появляются один раз, могут быть отброшены).
Я пытался использовать ручное извлечение, используя само слово Microsoft и docx2txt
(показано ниже), и они извлекают все изображения в документе word, но он автоматически удаляет дубликаты изображений (т.е. только одну копию каждого уникального изображения заканчивается в новой папке). Так что, в некотором смысле, это противоречит тому, что я в конечном итоге собираюсь сделать. Есть ли способ решить эту проблему или есть другой подход, который лучше?
import docx2txt
text = docx2txt.process(r"C:\Users\name\Documents\document_with_image.docx", r'C:\Users\name\Documents\folder_of_choice')
Большое спасибо!