По сути, это нелегкое решение, потому что PDF не очень интересует структура. На этом сайте есть много других ответов, которые расскажут вам вещи более подробно, но этот должен дать вам основные моменты:
Если определить текстовую структуру в документах PDF так сложно, как читатели PDF так хорошо это делают?
Если вы хотите сделать это в самом PDF (где у вас будет большая часть контроля над процессом), вам придется циклически перебирать весь текст на страницах и идентифицировать заголовки, просматривая их свойства текста (используемые шрифты, размер относительно другого текста на странице и т. д.).
Кроме того, вам также придется идентифицировать абзацы, просматривая расположение фрагментов текста, пробелы на странице, близость определенных букв, слов и строк ... Сам по себе PDF даже не имеет Понятие слова, не говоря уже о строках или абзацах.
Чтобы еще больше усложнить ситуацию, способ отрисовки текста на странице (и, следовательно, порядок, в котором он появляется в самом файле PDF) даже не должен быть правильным порядком чтения (или тем, что мы, люди, считаем быть правильным порядком чтения).