Я извлекаю текст с помощью tika server v1.20
.
Тика добавляет [закладки: xx] и [image: xx] в текст. Я не хочу их.
Пример вывода:
Как учится одаренный мозг Дэвид А. Соуза [изображение: как учится одаренный мозг] Добро пожаловатьк нашему третьему ежегодному исследованию семейных книг GATE.
Воспроизвести:
Запустить сервер -
java -jar tika-server-1.20.jar -p 5000
PUT http://localhost:5000/tika
Прикрепить файлв двоичном виде и content-type
: application/vnd.openxmlformats-officedocument.wordprocessingml.document
Входной файл: http://www.hasd.org/cms_files/resources/website%20book%20study%20how%20the%20brain%20works%20building%20background1.docx
Удаление этих тегов с помощью регулярных выражений \[(image:|bookmark:).*?\]
является пропластичным из-за таких случаев:
[image: **[1].jpg]
Как использовать тика-сервер и не выдавать этот тег? Если не возможно, как их убрать?