Использование Python для извлечения изображений и текста из текстового документа - PullRequest
4 голосов
/ 14 июня 2011

Я хотел бы запустить сценарий для папки, содержащей текстовые документы, которая считывает документы и извлекает изображения и подписи к ним (текст прямо под изображениями).На основании проведенного мною исследования я думаю, что pywin32 может быть жизнеспособным решением.Я знаю, как использовать pywin32, чтобы найти строки и извлечь их, но мне нужна помощь с частью изображений.Как я могу прочитать файл docx и получить событие, когда изображение найдено?Спасибо за любую помощь!Я использую Python 2.7.

Ответы [ 4 ]

3 голосов
/ 03 августа 2011

Docx файлы могут быть распакованы для извлечения изображений.

3 голосов
/ 14 июня 2011

Найдите вдохновение в этом посте Как найти слово в файле Word 2007 .docx?

2 голосов
/ 07 марта 2016

Вы можете использовать модуль python docx2txt для извлечения текста, а также изображений из файлов docx

0 голосов
/ 19 марта 2018
document =docx.Document(filepath)
for image in document.inline_shapes:
    print (image.width, image.height)

Попробуйте, это будет работать.

...