PDF и Word извлечение текста, наложенного на изображения - PullRequest
0 голосов
/ 15 апреля 2020

Инструменты, используемые для обработки содержимого из PDF или Microsoft Word (DO C, DOCX), при анализе документов с изображениями, на которые нанесены текстовые метки, эти метки извлекаются отдельно для изображений. В результате каждое такое изображение извлекается без наложенного текста и затем следует один или несколько абзацев этого текста вне контекста.

В таких случаях изображение, подобное (а)

-------------
|  Level 2  |
-------------
|  Level 1  |
-------------

извлекается как (b)

-------------
|           |
-------------
|           |
-------------

Level 2
Level 1

Это «стандартное» поведение для инструментов, используемых для обработки PDF или Word, например Apache PDFBox и POI .

Есть ли способ справиться с этим, в инструментах Apache или любом другом подобном инструменте?

Идеальным решением было бы извлечь оба изображения и метки как единое целое, как (а) выше. Кроме того, извлечение изображения и метки может быть деактивировано вместе.

В конечном счете, должен быть способ избежать "загрязнения" текста документа метками, которые в противном случае выглядят неконтролируемыми.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...