Tika Server - парсинг без закладки и тегов изображений - PullRequest
0 голосов
/ 03 октября 2019

Я извлекаю текст с помощью tika server v1.20.

Тика добавляет [закладки: xx] и [image: xx] в текст. Я не хочу их.

Пример вывода:

Как учится одаренный мозг Дэвид А. Соуза [изображение: как учится одаренный мозг] Добро пожаловатьк нашему третьему ежегодному исследованию семейных книг GATE.

Воспроизвести:

Запустить сервер -

java -jar tika-server-1.20.jar -p 5000

PUT http://localhost:5000/tika

Прикрепить файлв двоичном виде и content-type: application/vnd.openxmlformats-officedocument.wordprocessingml.document

Входной файл: http://www.hasd.org/cms_files/resources/website%20book%20study%20how%20the%20brain%20works%20building%20background1.docx

Удаление этих тегов с помощью регулярных выражений \[(image:|bookmark:).*?\] является пропластичным из-за таких случаев:

[image: **[1].jpg]

Как использовать тика-сервер и не выдавать этот тег? Если не возможно, как их убрать?

...