Извлечь подстроку и суперстроку используя itext - PullRequest
0 голосов
/ 21 июня 2019

У меня есть PDF-файл с таким содержимым, как подстрока и супер строка

Пример: enter image description here

Когда я читаю построчно, используя библиотеку itext, она возвращает

1. Introduction of v section 
ref tm
This is simple word document. Us
working or not.
t tm
1.1 Document Summary 
Here is document summary. 

В приведенном выше случае вы видите, будет ли подстрока читать как следующая строка, а суперструна - как первую строку конкретного заголовка

Как я могу прочитать содержимое всей строки, используя itext jar.

Пример кода

public void usingItext() {
    PdfReader pdfReader;
    try {
        pdfReader = new PdfReader("samplewordDoc_pdf_doc_new.pdf");
        int pages = pdfReader.getNumberOfPages();
        for (int i = 1; i < pages; i++) {
            String lines[] = PdfTextExtractor.getTextFromPage(pdfReader, i).split("\\r?\\n");;
             for (int j = 0; j < lines.length; j++) {
                System.out.println(lines[j].toString());
            }
        }
        pdfReader.close();
    } catch (IOException e) {
        e.printStackTrace();
    }
}
...