Я хочу использовать класс PDFBox PDFTextStripper
для извлечения текста из PDF.Я делаю это, расширяя PDFTextStripper
и анализируя экземпляры TextPosition
, которые извлекает класс Stripper.Затем я использую эти координаты для реализации пользовательского средства просмотра HTML.
Это прекрасно работает для 9 из 10 PDF-файлов.Но некоторые PDF-файлы вызывают некоторые проблемы.Иногда PDFBox распознает текст, но TextLocation не совпадает.Пример:
Я анализирую расположение извлеченного текста и отображаю div в координатах. Вы можете предположить, что мои расчеты верны.Они работают со всеми другими PDF-файлами, с которыми я работаю.
У PDF-файлов, с которыми у меня возникли проблемы, координаты будут ниже фактического текста:
Ошибка должна быть где-то в PDFBox, так как я могу правильно выделить текст в других средствах просмотра PDF (например, в формате PDF.js), и там правильно расположены div текстового слоя.
Нет, мне интересно: Какие есть варианты для настройки и точной настройки расположения текста в PDFBox?
Заранее спасибо!