Я делаю pdftotext -bbox file.pdf, и это производит вывод на уровне слов. Есть ли способ вывести координаты на уровне символа / фразы / строки / блока?
Мне интересно знать, может ли это сделать poppler или xpdf-версия pdftotext.
Конечно, просто используйте pdftotext -bbox-layout, и это даст вам необходимую структуру.
pdftotext -bbox-layout