Возможна ли точная настройка PDFBox PDFTextStripper - PullRequest
0 голосов
/ 10 декабря 2018

Я хочу использовать класс PDFBox PDFTextStripper для извлечения текста из PDF.Я делаю это, расширяя PDFTextStripper и анализируя экземпляры TextPosition, которые извлекает класс Stripper.Затем я использую эти координаты для реализации пользовательского средства просмотра HTML.

Это прекрасно работает для 9 из 10 PDF-файлов.Но некоторые PDF-файлы вызывают некоторые проблемы.Иногда PDFBox распознает текст, но TextLocation не совпадает.Пример:

Я анализирую расположение извлеченного текста и отображаю div в координатах. Вы можете предположить, что мои расчеты верны.Они работают со всеми другими PDF-файлами, с которыми я работаю.

У PDF-файлов, с которыми у меня возникли проблемы, координаты будут ниже фактического текста:

Incorrect text

Ошибка должна быть где-то в PDFBox, так как я могу правильно выделить текст в других средствах просмотра PDF (например, в формате PDF.js), и там правильно расположены div текстового слоя.

Нет, мне интересно: Какие есть варианты для настройки и точной настройки расположения текста в PDFBox?

Заранее спасибо!

...