Как извлечь параметр из PDF-файла, используя Java-код & pdfbox - PullRequest
0 голосов
/ 02 июля 2018

Я делаю Java-программу, которая предназначена для извлечения параметров из PDF-файлов. Я хотел бы извлечь PDF, чтобы получить параметр, как

  • OBJ
  • endobj
  • поток
  • endstream
  • 1012 * Xref *
  • прицеп
  • startxref
  • / * Страница 1018 *
  • / Encrypt
  • / ObjStm
  • / JS
  • / JavaScript
  • / AA
  • / OpenAction
  • / JBIG2Decode
  • / Мультимедийное
  • / Launch
  • / РФ

параметр:

parameter

, поэтому я хочу получить вывод, показанный на рисунке ниже:

convert text

1 Ответ

0 голосов
/ 02 июля 2018

Исходя из комментария выше Итак, вы хотите извлечь текст из PDF, а затем сосчитать вхождения? , вы можете сделать следующее:

Прочитать файл PDF в:

String[] words = null;
try (PDDocument document = PDDocument.load(new File("C:\\path\\to\\file.pdf"))) {
    document.getClass();
    if (!document.isEncrypted()) {
        PDFTextStripperByArea stripper = new PDFTextStripperByArea();
        stripper.setSortByPosition(true);
        PDFTextStripper tStripper = new PDFTextStripper();
        String pdfFileInText = tStripper.getText(document);
        words = pdfFileInText.split("\\s+");
    }
}

А затем распечатайте вхождения слов:

Arrays.stream(words)
       .collect(Collectors.groupingBy(s -> s))
       .forEach((k, v) -> System.out.println(k + " " + v.size()));

Возможно, вам придется немного подстроить это под свои нужды.

...