У меня есть исходный pdf (untagged.pdf), из которого я буду создавать теговую версию (tagged.pdf)
У меня есть информация обо всех тегах html всего содержимого исходного pdf.
Теперь у меня есть рисунок на странице 3. Когда я анализирую программно, это не будет обнаружено как изображение, но это прямоугольник с некоторым текстом и другим прямоугольником, как показано ниже.
_____________________ ____________________
| Some text inside | ----> | Some other text |
| | ----> | Inside |
|_____________________| ----> |____________________|
Fig 1.x Rectangle 1 to Rectangle 2
Используя некоторые другие приемы, я обнаружил, что это фигура и ограничивающие ее координаты.Допустим, ограничивающие координаты равны [10, 30] и [100, 60], я хочу пометить все это как фигуру (как показано ниже)
_____________________________________________________________(100, 60)
| |
| _____________________ ____________________ |
| | Some text inside | ----> | Some other text | |
| | | ----> | Inside | |
| |_____________________| ----> |____________________| |
| |
| Fig 1.x Rectangle 1 to Rectangle 2 |
|_____________________________________________________________|
(10, 30)
Теперь я хочу пометить это весь разделкак изображение.Я проверил библиотеки, такие как itextpdf или pdfbox.У них нет API для маркировки фигуры с помощью координат.
Другими словами, есть ли какие-либо способы пометить элемент (группу изображений) как фигуру программно.