получить заголовок страницы PDF - PullRequest
0 голосов
/ 22 декабря 2011

Возможно ли получить заголовок страницы через iText?

  • PdfTextExtractor возвращает весь текст со страницы, но я не знаю, какая строка является заголовком. Также заголовок может содержать более одной строки
  • Я не знаю координат заголовка, поэтому не могу использовать RegionTextRenderFilter
  • Я могу попытаться проанализировать размер шрифта и взять строки с самым крупным шрифтом, но TextRenderInfo не предоставляет публичный доступ к gs (private final GraphicsState gs)
  • Есть еще идеи?

1 Ответ

1 голос
/ 24 декабря 2011

Страницы в PDF не имеют заголовков, они просто содержат текст, выделенный жирным шрифтом или крупным шрифтом, и отображаются в области, которую вы считаете "более верхней", чем другие фрагменты текста.Похоже, вы уже знаете это, мне просто нужно было прояснить это.

См. мой пост здесь , который показывает, как получить информацию о шрифте с помощью подкласса ITextExtractionStrategy.Мой пример нацелен на iTextSharp, который является .Net-портом iText, но они в значительной степени соответствуют функциональности.Самым большим отличием является то, что Java использует getXXX и setXXX, тогда как .Net просто использует XXX для обоих.В противном случае все должно быть просто нормально.

Мораль этой истории в том, что вам придется написать несколько произвольных правил, определяющих то, что вы называете «заголовком», а затем проанализировать на основе этих правил.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...