Извлечение текста и изображений в правильном порядке из PDF-файла с помощью Apache PDFBox - PullRequest
0 голосов
/ 29 сентября 2019

Я пытаюсь проанализировать документ pdf, используя Apache PDFBox.Мне удалось извлечь текст и изображения по отдельности, но мне интересно, возможно ли извлечь оба в их соответствующих порядках.

Я не прошел всю библиотеку, но я думаю, что можно извлечьтекст и его расположение в документе.Есть ли способ использовать это, чтобы знать, где правильно вставить изображение?

...