Определение «коробки интересов» на странице PDF - PullRequest
0 голосов
/ 18 июня 2009

Я хочу иметь возможность определять ограничивающую рамку областей текста, изображений и путей на странице PDF, аналогично тому, что показано здесь:

http://www.windjack.com/products/screenshot/pdfcanscreenshot2.html

Глядя на спецификацию PDF, я вижу, как определить ограничивающие рамки путей и изображений, но не могу понять, как получить их для текста. Нужно ли вычислять его вручную, определяя высоту и ширину глифов по размеру шрифта и т. Д., Или есть более простой способ?

1 Ответ

2 голосов
/ 18 июня 2009

Вы можете начать с решения «Как получить информацию о смещении символов из документа PDF?» Это даст вам x, y, ширину и высоту для символов и / или подстрок в документе. Оттуда, более сложная часть состоит в том, чтобы связать группы персонажей в пространственно отличные области. Нет гарантии, что пространственно сгруппированный текст на странице будет близок друг к другу в синтаксисе формата файла ...

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...