PDFBox не распознает ссылку - PullRequest
       12

PDFBox не распознает ссылку

0 голосов
/ 24 августа 2011

Я использую Apache PDFBox для сканирования PDF-файлов в поисках ссылок на определенный файл.

У меня есть около тысячи PDF-файлов для сканирования и большинство ссылок (на самом деле все, кромеодна, насколько я вижу сейчас) найдены.

Однако в PDF есть одна конкретная ссылка, которую PDFBox просто игнорирует.Если я открываю PDF с помощью Foxit и проверяю свойства ссылки, она выглядит точно так же, как и все остальные ссылки (которые do найдены).

Вот код, который я использую для перебора ссылок:

    for( Object p : pages ) {
        PDPage page = (PDPage)p;

        List<?> annotations = page.getAnnotations();
        for( Object a : annotations ) {
            PDAnnotation annotation = (PDAnnotation)a;

            if( annotation instanceof PDAnnotationLink ) {
                PDAnnotationLink link = (PDAnnotationLink)annotation;

                /* Do stuff with the link */
            }
        }

    }

В затронутом PDF-файле page.getAnnotations() возвращает пустой список.

Есть ли какой-либо другой тип ссылки, кроме аннотаций, о которых мне следует знать?

1 Ответ

1 голос
/ 24 августа 2011

Я взглянул на словарь аннот. Это выглядит так:

<</A 1207 0 R/BS<</D[3.0]/S/D/Type/Border/W 0>>/Border[0 0 0[3.0]]/C[1.0 0.0 0.0]/H/I/Rect[56.4168 621.404 547.686 639.787]/Subtype/Link/Type/Annot>>

Я не вижу в этом ничего плохого. На него также правильно ссылаются из записи Annots на странице. Извините, я не могу вам помочь.

...