Как извлечь изображения из PDF или Word вместе с текстом вокруг изображений? - PullRequest
0 голосов
/ 09 апреля 2019

Я обнаружил, что есть некоторая библиотека для извлечения изображений из PDF или слова, такая как docx2txt и pdfimages. Но как я могу получить содержимое вокруг изображений (например, под изображением может быть заголовок)? Или получите номер страницы каждого изображения?

Некоторые другие инструменты, такие как PyPDF2 и minecart, могут извлекать изображение страница за страницей. Однако я не могу выполнить этот код успешно.

Есть ли хороший способ получить некоторую информацию об изображениях? (из изображения, полученного из docx2txt или pdfimages, или другого способа извлечь изображение с информацией)

Ответы [ 2 ]

0 голосов
/ 11 июля 2019

docx2python вытягивает изображения в папку и оставляет маркеры -----image1.png---- в извлеченном тексте. Это может приблизить вас к тому месту, куда вы хотели бы пойти.

0 голосов
/ 12 апреля 2019

Я нашел код doc2txt, и он просто анализирует XML-файл docx. Так что это на самом деле очень простая задача ..

Ссылка: doc2txt

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...