Apache PDFBox - не в состоянии прочитать все веб-ссылки из PDF - PullRequest
0 голосов
/ 23 ноября 2018

Я пытаюсь извлечь все гиперссылки из файла PDF.Я использую Apache PDFBox версия 2.0.11 .Я использую приведенный ниже фрагмент кода, но в некоторых PDF-файлах размер аннотации страницы составляет "0" .Но на этой конкретной странице гиперссылки доступны.Пожалуйста, найдите проблемный файл PDF из https://drive.google.com/open?id=1GpbPsZr_OvunLBRr2iD5ElkNeKFPaRfy.Страница № 2 содержит гиперссылку.Поэтому, пожалуйста, проверьте это и помогите мне извлечь эти гиперссылки.

    PDDocument doc = null;
    doc = PDDocument.load(new File("C:\\Users\\A883\\Desktop\\AEM.01938-18.pdf"));
    for (int i = 0; i < doc.getNumberOfPages(); ++i)
    {
        PDPage page = doc.getPage(i);
        List<?> annots = page.getAnnotations();
        System.out.println("Size of annotations "+annots.size());
        for(Object o:annots){
            if(o instanceof PDAnnotationLink){
                System.out.println("Page "+(i+1)+" contains link.");
            }
        }
    }
...