Мне нужно извлечь текст из файлов разных типов, используя Apache Tika.Проблема в том, что я должен быть в состоянии извлечь только конкретный абзац.Я знаю, что Тика возвращает количество абзацев в метаданных, но есть ли способ извлечь конкретный из текста?Я пытался проанализировать текст в XHTML, используйте Regex, чтобы получить
<p>...</p>
, но он возвращает гораздо больше абзацев, чем метаданные.