Извлечение текста между двумя закладками с помощью Apache PdfBox - PullRequest
6 голосов
/ 06 марта 2012

Я использую Apache PDFBox для чтения документа PDF, иерархия которого определяется закладками. Иерархия представлена ​​в виде дерева с содержимым только на уровне листьев.

Извлечение текста между двумя листовыми закладками с использованием следующего кода:

Stripper.setStartBookmark(), 
Stripper.setEndBookmark(),
Stripper.writeText()), 

Вместо этого возвращает текст на всей странице. Короче говоря, моя проблема похожа на упомянутую в этой теме .

Есть ли способ извлечь содержимое между двумя закладками?

Если так, что должно измениться в моем коде?

1 Ответ

0 голосов
/ 04 февраля 2013

Я предполагаю, что ваша закладка не содержит правильных данных.

Звучит так, будто используемая вами закладка указывает только на страницу , с которой начинается ваш контент, а не на местоположение на странице.

Вот пример закладки, содержащей данные о местоположении:

<Title Action="GoTo" Style="bold" Page="2 FitH 518">
Title Name
</Title>
...