Когда я использую ghostscript
с устройством textwrite
, я получаю файл XML
, который описывает мой pdf
, т. Е.
<page>
<block>
<line>
<span bbox="95 97 357 97" font="..." size="9.0000">
<char bbox="95 97 106 97" c="a"/>
<char bbox="106 97 117 97" c="b"/>
<char bbox="117 97 126 97" c="c"/>
...
</span>
</line>
</block>
<block>
...
Мой вопрос: существует ли известная шкала?к координатам bbox (ограничивающего прямоугольника) (X1,Y1,X2,Y2)
или они зависят от страницы?в любом случае, могу ли я каким-либо образом извлечь сетку страницы, чтобы понять ее высоту и ширину?
Моя главная мысль здесь также заключается в том, чтобы понимать такие особенности, как, например, расположение символа за центром страницы и т. д.
Моя полная команда для преобразования pdf
в XML
:
ghostscript -q -sPAPERSIZE=a4 -r200 -sDEVICE=txtwrite" -sOutputFile=<output-path.xml> -dTextFormat=1 -dBATCH -dNOPAUSE <input-path.pdf>