Эластичный поиск игнорирует тег <div>во время индекса - PullRequest
0 голосов
/ 26 сентября 2018

Мы используем эластичный поиск (версия 5.5.2 с плагином процессора Ingest Attachment) и пытаемся проиндексировать следующий HTML-контент.

<div dir="ltr">looks like elasticsearch is not handling the line separator at the end of the first line<div>second line</div></div>\r\n

Упругий поиск индексирует содержимое следующим образом:

" выглядит так, какasticsearch не обрабатывает разделитель строк в конце первой строки, вторая строка "

Если мы ищем фразу «первая строка», то упругой не удается найти вышеуказанный документ.Это связано с тем, что при индексации содержимого тег между «line» и «second» удаляется, и оба слова объединяются в одно слово «linesecond».

Однако браузер отображает содержимое в две строки, как показанониже:

looks like elasticsearch is not handling the line separator at the end of the first line
second line

Есть ли способ указать серверу эластичного интерфейса обрабатывать тег как разрыв строки во время индекса?

  • Спасибо
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...