Question

Я занимаюсь моделированием темы в электронной книге в формате PDF и должен извлечь текст абзац за абзацем.Для этого я использую apache pdfBox, который эффективно извлекает текст из pdf.

PDFParser parser;PDFTextStripper pdfStrip = null;parsedText = pdfStrip.getText (pdDoc);

Но я не могу извлечь абзацы отдельно.Этот инструмент позволяет установить идентификатор начала / конца абзаца, но для этого мне нужно знать идентификатор разбиения абзаца.

Есть ли способ сделать это или есть другой доступный инструмент, который можетэффективно извлечь параграф?

Jitesh · Answer 1 · 17 апреля 2011

PdfNitro - лучший инструмент, который я нашел для извлечения абзаца.

Единственная проблема этого инструмента - он рассматривает разрыв страницы как разрыв абзаца, в противном случае он работает хорошо. Этот инструмент доступен в 14-дневной пробной версии для тестирования.

Извлечение абзаца из PDF

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Извлечение абзаца из PDF

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы