Question

Как прочитать определенную страницу (с учетом номера страницы) из документа PDF с помощью PDFBox?

Nicolas Modrzyk · Answer 1 · 27 июля 2011

Это должно работать:

PDPage firstPage = (PDPage)doc.getAllPages().get( 0 );

как видно из раздела BookMark учебника

Обновление 2015, версия 2.0.0 SNAPSHOT

Кажется, это было удалено и возвращено (?). getPage находится в версии 2.0.0 javadoc . Чтобы использовать это:

PDDocument document = PDDocument.load(new File(filename));
PDPage doc = document.getPage(0);

Метод getAllPages был переименован в getPages

PDPage page = (PDPage)doc.getPages().get( 0 );

Raymond C Borges Hink · Answer 2 · 14 июля 2012

//Using PDFBox library available from http://pdfbox.apache.org/  
//Writes pdf document of specific pages as a new pdf file

//Reads in pdf document  
PDDocument pdDoc = PDDocument.load(file);

//Creates a new pdf document  
PDDocument document = null;

//Adds specific page "i" where "i" is the page number and then saves the new pdf document   
try {   
    document = new PDDocument();   
    document.addPage((PDPage) pdDoc.getDocumentCatalog().getAllPages().get(i));   
    document.save("file path"+"new document title"+".pdf");  
    document.close();  
}catch(Exception e){}

sam9046 · Answer 3 · 28 января 2014

Думаю, я бы добавил свой ответ здесь, так как я нашел вышеупомянутые ответы полезными, но не совсем то, что мне было нужно.

В моем сценарии я хотел отсканировать каждую страницу по отдельности, найти ключевое слово, если это ключевое слово появилось, затем что-то сделать с этой страницей (т.е. скопировать или игнорировать ее).

Я попытался просто и заменить общие переменные и т. Д. В своем ответе:

public void extractImages() throws Exception {
        try {
            String destinationDir = "OUTPUT DIR GOES HERE";
            // Load the pdf
            String inputPdf = "INPUT PDF DIR GOES HERE";
            document = PDDocument.load( inputPdf);
            List<PDPage> list = document.getDocumentCatalog().getAllPages();
            // Declare output fileName
            String fileName = "output.pdf";
            // Create output file
            PDDocument newDocument = new PDDocument();
            // Create PDFTextStripper - used for searching the page string
            PDFTextStripper textStripper=new PDFTextStripper(); 
            // Declare "pages" and "found" variable
            String pages= null; 
            boolean found = false;     
            // Loop through each page and search for "SEARCH STRING". If this doesn't exist
            // ie is the image page, then copy into the new output.pdf. 
            for(int i = 0; i < list.size(); i++) {
                // Set textStripper to search one page at a time 
                textStripper.setStartPage(i); 
                textStripper.setEndPage(i);             
                PDPage returnPage = null;
                // Fetch page text and insert into "pages" string
                pages = textStripper.getText(document); 
                found = pages.contains("SEARCH STRING");
                    if (i != 0) {
                            // if nothing is found, then copy the page across to new                     output pdf file
                        if (found == false) {
                            returnPage = list.get(i - 1); 
                            System.out.println("page returned is: " + returnPage);
                            System.out.println("Copy page");
                            newDocument.importPage(returnPage);
                        }
                    }
            }    
            newDocument.save(destinationDir + fileName);

            System.out.println(fileName + " saved");
         } 
         catch (Exception e) {
             e.printStackTrace();
             System.out.println("catch extract image");
         }
    }

Mowazzem Hosen · Answer 4 · 01 июля 2017

Вот решение. Надеюсь, это решит вашу проблему.

string fileName="C:\mypdf.pdf";
PDDocument doc = PDDocument.load(fileName);                   
PDFTextStripper stripper = new PDFTextStripper();
stripper.setStartPage(1);
stripper.setEndPage(2);
//above page number 1 to 2 will be parsed. for parsing only one page set both value same (ex:setStartPage(1);  setEndPage(1);)
string reslut = stripper.getText(doc);

doc.close();

Bilal Shahid · Answer 5 · 14 ноября 2015

вы можете получить метод getPage поверх экземпляра PDDocument

PDDocument pdDocument=null;
pdDocument = PDDocument.load(inputStream);
PDPage pdPage = pdDocument.getPage(0);

Paulpro · Answer 6 · 27 июля 2011

Добавьте это к вызову командной строки:

ExtractText -startPage 1 -endPage 1 filename.pdf

Измените 1 на нужный номер страницы.

Чтение определенной страницы из документа PDF с использованием PDFBox

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 6 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Чтение определенной страницы из документа PDF с использованием PDFBox

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 6 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы