Я нахожу способ извлечь семантическую структурную информацию (такую как заголовок, заголовок, абзац или списки) из PDF. Потому что я хочу получить чистые структурные данные из PDF.
Наконец, я хочу создать чистый XHTML из PDF. Только со структурной информацией. Нет дизайна или макета.
Я знаю, PDF можно создавать без какой-либо структурной информации. Я не рассматриваю эти PDF-файлы. Только регулярно хорошо структурированные PDF-файлы рассматриваются.
Я новичок в PDF. Так что я не знаю, предлагает ли он правильную семантическую структуру или нет. Если он существует, его предложит библиотека. Поэтому я хочу знать, есть ли в спецификации PDF эта информация, и лучший способ получить эту информацию, если она существует.