Чтение текста в PDF-файл и разделить на несколько PDF-файлов - PullRequest
0 голосов
/ 26 февраля 2019

У меня есть консолидированные PDF-файлы, в которых текст на каждой странице имеет идентификатор и номера страниц как «Страница X из Y».Мне нужно разбить один PDF-файл на несколько PDF-файлов на основе текста X страницы Y.Я пытаюсь сделать POC, используя iText, но я изо всех сил пытаюсь прочитать страницу X из Y, чтобы определить номера страниц, которые мне нужно использовать, чтобы разделить файл.Могу ли я получить некоторое представление о реализации этого с помощью Java?

Я попробовал следующий код:

 public static void main(String args[]) {
        PDFTextStripper pdfStripper = null;
        PDDocument pdDoc = null;
        COSDocument cosDoc = null;
        File file = new File("C:\\basics\\outbound\\FPPStmts.pdf");
        try {
            // PDFBox 2.0.8 require org.apache.pdfbox.io.RandomAccessRead 
             RandomAccessFile randomAccessFile = new RandomAccessFile(file, "r");
             PDFParser parser = new PDFParser(randomAccessFile);               
            parser.parse();
            cosDoc = parser.getDocument();
            pdfStripper = new PDFTextStripper();
            pdDoc = new PDDocument(cosDoc);
            pdfStripper.setStartPage(1);
            pdfStripper.setEndPage(2);
            String parsedText = pdfStripper.getText(pdDoc);
            System.out.println(parsedText);
        } catch (IOException e) {
            // TODO Auto-generated catch block
            e.printStackTrace();
        } 
    }

Это приводит к пустому тексту, хотя мой PDF-файл содержит данные.

...