Ghostscript txtwrite bbox ограничения - PullRequest
0 голосов
/ 23 января 2019

Когда я использую ghostscript с устройством textwrite, я получаю файл XML, который описывает мой pdf, т. Е.

<page>
    <block>
        <line>
            <span bbox="95 97 357 97" font="..." size="9.0000">
                <char bbox="95 97 106 97" c="a"/>
                <char bbox="106 97 117 97" c="b"/>
                <char bbox="117 97 126 97" c="c"/>
                ...
            </span>
        </line>
    </block>
    <block>
    ...

Мой вопрос: существует ли известная шкала?к координатам bbox (ограничивающего прямоугольника) (X1,Y1,X2,Y2) или они зависят от страницы?в любом случае, могу ли я каким-либо образом извлечь сетку страницы, чтобы понять ее высоту и ширину?

Моя главная мысль здесь также заключается в том, чтобы понимать такие особенности, как, например, расположение символа за центром страницы и т. д.

Моя полная команда для преобразования pdf в XML:

ghostscript -q -sPAPERSIZE=a4 -r200 -sDEVICE=txtwrite" -sOutputFile=<output-path.xml> -dTextFormat=1 -dBATCH -dNOPAUSE <input-path.pdf>

1 Ответ

0 голосов
/ 23 января 2019

Ограничительная рамка в единицах PostScript / PDF, 1/72 дюйма. Обратите внимание, что на самом деле вывод - это не XML, а «как» XML.

...