Question

Возможно ли получить заголовок страницы через iText?

PdfTextExtractor возвращает весь текст со страницы, но я не знаю, какая строка является заголовком. Также заголовок может содержать более одной строки
Я не знаю координат заголовка, поэтому не могу использовать RegionTextRenderFilter
Я могу попытаться проанализировать размер шрифта и взять строки с самым крупным шрифтом, но TextRenderInfo не предоставляет публичный доступ к gs (private final GraphicsState gs)
Есть еще идеи?

Chris Haas · Answer 1 · 24 декабря 2011

Страницы в PDF не имеют заголовков, они просто содержат текст, выделенный жирным шрифтом или крупным шрифтом, и отображаются в области, которую вы считаете "более верхней", чем другие фрагменты текста.Похоже, вы уже знаете это, мне просто нужно было прояснить это.

См. мой пост здесь , который показывает, как получить информацию о шрифте с помощью подкласса ITextExtractionStrategy.Мой пример нацелен на iTextSharp, который является .Net-портом iText, но они в значительной степени соответствуют функциональности.Самым большим отличием является то, что Java использует getXXX и setXXX, тогда как .Net просто использует XXX для обоих.В противном случае все должно быть просто нормально.

Мораль этой истории в том, что вам придется написать несколько произвольных правил, определяющих то, что вы называете «заголовком», а затем проанализировать на основе этих правил.

получить заголовок страницы PDF

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

получить заголовок страницы PDF

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов