Я занимаюсь моделированием темы в электронной книге в формате PDF и должен извлечь текст абзац за абзацем.Для этого я использую apache pdfBox, который эффективно извлекает текст из pdf.
PDFParser parser;PDFTextStripper pdfStrip = null;parsedText = pdfStrip.getText (pdDoc);
Но я не могу извлечь абзацы отдельно.Этот инструмент позволяет установить идентификатор начала / конца абзаца, но для этого мне нужно знать идентификатор разбиения абзаца.
Есть ли способ сделать это или есть другой доступный инструмент, который можетэффективно извлечь параграф?