Исходя из комментария выше Итак, вы хотите извлечь текст из PDF, а затем сосчитать вхождения? , вы можете сделать следующее:
Прочитать файл PDF в:
String[] words = null;
try (PDDocument document = PDDocument.load(new File("C:\\path\\to\\file.pdf"))) {
document.getClass();
if (!document.isEncrypted()) {
PDFTextStripperByArea stripper = new PDFTextStripperByArea();
stripper.setSortByPosition(true);
PDFTextStripper tStripper = new PDFTextStripper();
String pdfFileInText = tStripper.getText(document);
words = pdfFileInText.split("\\s+");
}
}
А затем распечатайте вхождения слов:
Arrays.stream(words)
.collect(Collectors.groupingBy(s -> s))
.forEach((k, v) -> System.out.println(k + " " + v.size()));
Возможно, вам придется немного подстроить это под свои нужды.