Apache Tika - разрывы абзацев в файлах .doc - PullRequest
0 голосов
/ 24 мая 2018

Сейчас я тестирую извлечение полного текста с помощью Apache Tika.Я использую фасадный класс Tika с конфигурацией по умолчанию.Проблема заключается в том, как Тика обрабатывает разрывы абзацев.

Я создал несколько тестовых файлов в разных форматах - docx, pdf, обычный текст, odt, rtf, doc, содержащие точно такой же контент.Для всех этих форматов, кроме doc, абзацы разделяются либо \ n \ n, либо \ r \ n.

Например, вместо получения:

parast1 \ n \ nparagraph2

Я получаю:

§1paragraph2

Есть ли способ настроить Tika таким образом, чтобы он сохранял разрывы абзацев в документах doc, так же, как и для других типов файлов?

...