Apache Tika получить параграф - PullRequest
0 голосов
/ 18 марта 2019

Мне нужно извлечь текст из файлов разных типов, используя Apache Tika.Проблема в том, что я должен быть в состоянии извлечь только конкретный абзац.Я знаю, что Тика возвращает количество абзацев в метаданных, но есть ли способ извлечь конкретный из текста?Я пытался проанализировать текст в XHTML, используйте Regex, чтобы получить

<p>...</p> 

, но он возвращает гораздо больше абзацев, чем метаданные.

...