Определение текста в файле PDF - PullRequest
0 голосов
/ 24 июня 2019

Я анализирую документ PDF, чтобы попытаться определить дату в нем (см. Изображение). В моем распоряжении два метода Java:

 PDDocument doc = PDDocument.load(fil);

открывает файл PDF в объекте PDDocument. И

 String strip = new PDFTextStripper().getText(doc);

получает весь текст из pdf-файла в строку. Вот что я пытаюсь прочитать (30 июня 2019 г.)]

enter image description here

Теперь вот как текст:

This Agreement, which is effective as of\efip2\                               (the "Effective Date")

Так я бы правильно предположил, что \ efip2 \ - это изображение? Вероятно, нет способа определить дату по этому изображению, верно? Или это не изображение, а какое-то включение? Есть идеи как его получить?

...