Я обнаружил, что есть некоторая библиотека для извлечения изображений из PDF или слова, такая как docx2txt и pdfimages. Но как я могу получить содержимое вокруг изображений (например, под изображением может быть заголовок)? Или получите номер страницы каждого изображения?
Некоторые другие инструменты, такие как PyPDF2 и minecart, могут извлекать изображение страница за страницей. Однако я не могу выполнить этот код успешно.
Есть ли хороший способ получить некоторую информацию об изображениях? (из изображения, полученного из docx2txt или pdfimages, или другого способа извлечь изображение с информацией)