Извлечение абзаца из PDF - PullRequest
0 голосов
/ 15 марта 2011

Я занимаюсь моделированием темы в электронной книге в формате PDF и должен извлечь текст абзац за абзацем.Для этого я использую apache pdfBox, который эффективно извлекает текст из pdf.

PDFParser parser;PDFTextStripper pdfStrip = null;parsedText = pdfStrip.getText (pdDoc);

Но я не могу извлечь абзацы отдельно.Этот инструмент позволяет установить идентификатор начала / конца абзаца, но для этого мне нужно знать идентификатор разбиения абзаца.

Есть ли способ сделать это или есть другой доступный инструмент, который можетэффективно извлечь параграф?

1 Ответ

1 голос
/ 17 апреля 2011

PdfNitro - лучший инструмент, который я нашел для извлечения абзаца.

Единственная проблема этого инструмента - он рассматривает разрыв страницы как разрыв абзаца, в противном случае он работает хорошо. Этот инструмент доступен в 14-дневной пробной версии для тестирования.

...