Я пишу программу, которая преобразует сгенерированные TeX
PDF-файлы обратно в TeX
-подобную строку текста. Для этого я использую Apache PDFBox
.
Я хотел бы иметь возможность обнаруживать подписи, надстрочные индексы и затем использовать TeX
-подобный метод для их обозначения. Я читал этот вопрос: Различение надстрочных и подстрочных индексов с помощью pdf box , которое не очень полезно, потому что невозможно обнаружить подстрочные и надстрочные индексы с использованием Y
и EndY
, вероятно, потому что они являются относительными. Есть ли способ определить абсолютную позицию текста? Высоту глифа на самом деле легко получить, если люди используют старые шрифты TeX, поэтому я легко могу определить изменение размера шрифта.