Question

Для школьного проекта я работаю над экстрактором изображений для PDF, для этого я использую библиотеку PDFBox. Проблема, с которой я сейчас сталкиваюсь, заключается в получении метаданных, но пока мне удавалось получать метаданные только из самого PDF-файла, но не из изображений внутри PDF-файла.

Можно ли получить метаданные из всех изображений в PDF с помощью PDFBox? если так, кто-нибудь может привести меня к примеру? Все примеры, которые я нашел до сих пор, относятся только к метаданным самого PDF, а не к изображениям.

Я также слышал, что при создании PDF он удаляет любые метаданные из объектов внутри, это правда?

Надеюсь, кто-то из стека overoverflow поможет мне.

Erik · Answer 1 · 01 июня 2011

Я не согласен с другими и у меня есть POC для вашего вопроса: Вы можете извлечь метаданные XMP изображений, используя pdfbox следующим образом:

public void getXMPInformation() {
    // Open PDF document
    PDDocument document = null;
    try {
        document = PDDocument.load(PATH_TO_YOUR_DOCUMENT);
    } catch (IOException e) {
        e.printStackTrace();
    }
    // Get all pages and loop through them
    List pages = document.getDocumentCatalog().getAllPages();
    Iterator iter = pages.iterator();
    while( iter.hasNext() ) {
        PDPage page = (PDPage)iter.next();
        PDResources resources = page.getResources();            
        Map images = null;
        // Get all Images on page
        try {
            images = resources.getImages();
        } catch (IOException e) {
            e.printStackTrace();
        }
        if( images != null ) {
            // Check all images for metadata
            Iterator imageIter = images.keySet().iterator();
            while( imageIter.hasNext() ) {
                String key = (String)imageIter.next();
                PDXObjectImage image = (PDXObjectImage)images.get( key );
                PDMetadata metadata = image.getMetadata();
                System.out.println("Found a image: Analyzing for Metadata");
                if (metadata == null) {
                    System.out.println("No Metadata found for this image.");
                } else {
                    InputStream xmlInputStream = null;
                    try {
                        xmlInputStream = metadata.createInputStream();
                    } catch (IOException e) {
                        e.printStackTrace();
                    }
                    try {
                        System.out.println("--------------------------------------------------------------------------------");
                        String mystring = convertStreamToString(xmlInputStream);
                        System.out.println(mystring);
                    } catch (IOException e) {
                        e.printStackTrace();
                    }
                }
                // Export the images
                String name = getUniqueFileName( key, image.getSuffix() );
                    System.out.println( "Writing image:" + name );
                    try {
                        image.write2file( name );
                    } catch (IOException e) {
                        // TODO Auto-generated catch block
                        //e.printStackTrace();
                }
                System.out.println("--------------------------------------------------------------------------------");
            }
        }
    }
}

И «вспомогательные методы»:

public String convertStreamToString(InputStream is) throws IOException {
    /*
     * To convert the InputStream to String we use the BufferedReader.readLine()
     * method. We iterate until the BufferedReader return null which means
     * there's no more data to read. Each line will appended to a StringBuilder
     * and returned as String.
     */
    if (is != null) {
        StringBuilder sb = new StringBuilder();
        String line;

        try {
            BufferedReader reader = new BufferedReader(new InputStreamReader(is, "UTF-8"));
            while ((line = reader.readLine()) != null) {
                sb.append(line).append("\n");
            }
        } finally {
            is.close();
        }
        return sb.toString();
    } else {       
        return "";
    }
}

private String getUniqueFileName( String prefix, String suffix ) {
    /*
    * imagecounter is a global variable that counts from 0 to the number of
    * extracted images
    */
    String uniqueName = null;
    File f = null;
    while( f == null || f.exists() ) {
        uniqueName = prefix + "-" + imageCounter;
        f = new File( uniqueName + "." + suffix );
    }
    imageCounter++;
    return uniqueName;
}

Примечание: Это быстрое и грязное доказательство концепции, а не в хорошем стилеcode.

Изображения должны иметь метаданные XMP при размещении в InDesign перед созданием документа PDF.Метаданные XMP могут быть установлены, например, с помощью Photoshop.Обратите внимание, что не вся информация IPTC / Exif / ... преобразуется в метаданные XMP.Преобразовывается только небольшое количество полей.

Я использую этот метод на изображениях JPG и PNG, размещенных в сборках PDF с InDesign.Он работает хорошо, и я могу получить всю информацию об изображении после этапов производства из готовых PDF-файлов (покрытие рисунком).

PDFBox метаданные изображения

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

PDFBox метаданные изображения

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы