Сейчас я тестирую извлечение полного текста с помощью Apache Tika.Я использую фасадный класс Tika с конфигурацией по умолчанию.Проблема заключается в том, как Тика обрабатывает разрывы абзацев.
Я создал несколько тестовых файлов в разных форматах - docx, pdf, обычный текст, odt, rtf, doc, содержащие точно такой же контент.Для всех этих форматов, кроме doc, абзацы разделяются либо \ n \ n, либо \ r \ n.
Например, вместо получения:
parast1 \ n \ nparagraph2
Я получаю:
§1paragraph2
Есть ли способ настроить Tika таким образом, чтобы он сохранял разрывы абзацев в документах doc, так же, как и для других типов файлов?