Страницы в PDF не имеют заголовков, они просто содержат текст, выделенный жирным шрифтом или крупным шрифтом, и отображаются в области, которую вы считаете "более верхней", чем другие фрагменты текста.Похоже, вы уже знаете это, мне просто нужно было прояснить это.
См. мой пост здесь , который показывает, как получить информацию о шрифте с помощью подкласса ITextExtractionStrategy
.Мой пример нацелен на iTextSharp, который является .Net-портом iText, но они в значительной степени соответствуют функциональности.Самым большим отличием является то, что Java использует getXXX
и setXXX
, тогда как .Net просто использует XXX
для обоих.В противном случае все должно быть просто нормально.
Мораль этой истории в том, что вам придется написать несколько произвольных правил, определяющих то, что вы называете «заголовком», а затем проанализировать на основе этих правил.