Как преобразовать PDF в текстовый файл и сохранить формат PDF? - PullRequest
2 голосов
/ 05 января 2012

Здравствуйте, я хочу конвертировать PDF файл в текстовый файл.Я конвертирую файл PDF в текстовый файл.Но он не сохраняет формат текста, который находится именно в файле PDF.

Пожалуйста, помогите мне.

Ответы [ 3 ]

4 голосов
/ 05 января 2012

Текстовый файл сам по себе не может содержать форматирование.

Невозможно сохранить форматирование в текстовом файле, поскольку он содержит только текст.Внутри текстового файла может быть разметка HTML, но тогда я бы назвал это HTML-файлом.В противном случае вам следует попытаться преобразовать его в формат RTF, Microsoft Word, OpenOffice или другой тип документа.

1 голос
/ 14 июня 2013

Это может вам помочь.

File f = new File(fileName);
        if (!f.isFile()) {  
            return null;  
        } 


        try {
            parser = new PDFParser(new FileInputStream(f));
        } catch (Exception e) {
            return null;
        }  

        try {
            parser.parse();
            cosDoc = parser.getDocument();  
            pdfStripper = new PDFTextStripper();
           /* pdfStripper.setStartPage(2); 
            pdfStripper.setEndPage(3);*/  
            pdDoc = new PDDocument(cosDoc);
            parsedText = pdfStripper.getText(pdDoc);
        } catch (Exception e) {  
            System.out.println("An exception occured in parsing the PDF Document.");  
            e.printStackTrace();  
            try {  
                   if (cosDoc != null) cosDoc.close();  
                   if (pdDoc != null) pdDoc.close();  
               } catch (Exception e1) {  
               e.printStackTrace();  
            }  
            return null;  
        }
1 голос
/ 05 января 2012

PDFBox поможет вам в этом, он может потерять некоторое форматирование , как сказал Эрик Робертсон

см. Анализатор текста PDF: преобразование PDF в текст в Java с использованием PDFBox

...