Question

Мне нужно извлечь текст из файлов разных типов, используя Apache Tika.Проблема в том, что я должен быть в состоянии извлечь только конкретный абзац.Я знаю, что Тика возвращает количество абзацев в метаданных, но есть ли способ извлечь конкретный из текста?Я пытался проанализировать текст в XHTML, используйте Regex, чтобы получить

<p>...</p>

, но он возвращает гораздо больше абзацев, чем метаданные.

Apache Tika получить параграф

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Apache Tika получить параграф

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы