Извлеченный текст PDF не отображается в консоли - PullRequest
1 голос
/ 18 июня 2019

Я пытаюсь извлечь PDF-текст, используя Tabula.Но в коде нет ошибок, но когда я запускаю извлеченный текст PDF, он не отображается в консоли.Может ли кто-нибудь помочь.

Я использовал PDFBox и, проведя некоторые исследования, обнаружил, что tabula является новым, и хотел попробовать его.

File file = new File(pdfFilePath);
PDDocument document = PDDocument.load(file);
ObjectExtractor oe = new ObjectExtractor(document);
Page page = oe.extract(1) //1st page
TextStripper textStripper = new TextStripper(document,1);
System.out.println(textStripper.getText(document));

output of pdf text

1 Ответ

1 голос
/ 18 июня 2019

Вы не используете переменную страницы. Попробуйте следующий код.

File file = new File(pdfFilePath);
PDDocument document = PDDocument.load(file);
ObjectExtractor oe = new ObjectExtractor(document);
Page page = oe.extract(1); // 1st page

for (TextElement textElement: page.getText()) {
  System.out.print(textElement.getText());
}
...