Question

Я обнаружил, что есть некоторая библиотека для извлечения изображений из PDF или слова, такая как docx2txt и pdfimages. Но как я могу получить содержимое вокруг изображений (например, под изображением может быть заголовок)? Или получите номер страницы каждого изображения？

Некоторые другие инструменты, такие как PyPDF2 и minecart, могут извлекать изображение страница за страницей. Однако я не могу выполнить этот код успешно.

Есть ли хороший способ получить некоторую информацию об изображениях? (из изображения, полученного из docx2txt или pdfimages, или другого способа извлечь изображение с информацией)

Shay · Answer 1 · 11 июля 2019

docx2python вытягивает изображения в папку и оставляет маркеры -----image1.png---- в извлеченном тексте. Это может приблизить вас к тому месту, куда вы хотели бы пойти.

Jinyu Liu · Answer 2 · 12 апреля 2019

Я нашел код doc2txt, и он просто анализирует XML-файл docx. Так что это на самом деле очень простая задача ..

Ссылка: doc2txt

Как извлечь изображения из PDF или Word вместе с текстом вокруг изображений?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как извлечь изображения из PDF или Word вместе с текстом вокруг изображений?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы