Инструменты, используемые для обработки содержимого из PDF или Microsoft Word (DO C, DOCX), при анализе документов с изображениями, на которые нанесены текстовые метки, эти метки извлекаются отдельно для изображений. В результате каждое такое изображение извлекается без наложенного текста и затем следует один или несколько абзацев этого текста вне контекста.
В таких случаях изображение, подобное (а)
-------------
| Level 2 |
-------------
| Level 1 |
-------------
извлекается как (b)
-------------
| |
-------------
| |
-------------
Level 2
Level 1
Это «стандартное» поведение для инструментов, используемых для обработки PDF
или Word
, например Apache PDFBox и POI .
Есть ли способ справиться с этим, в инструментах Apache или любом другом подобном инструменте?
Идеальным решением было бы извлечь оба изображения и метки как единое целое, как (а) выше. Кроме того, извлечение изображения и метки может быть деактивировано вместе.
В конечном счете, должен быть способ избежать "загрязнения" текста документа метками, которые в противном случае выглядят неконтролируемыми.