Решить, как сделать фильтр на HTML-сущности - PullRequest
0 голосов
/ 15 мая 2018

Я использовал фильтр htmlStripCharater в анализаторе времени индекса, поэтому все символы html декодируются, пример- ® будет проиндексирован как & reg; Я сделал это из-за некоторых внутренних вещей НЛП, которые мы делаем, и это хорошо служит цели.

Проблема возникает, когда я пытаюсь выполнить запрос фильтра. Пример у меня есть бренд - Helloworld & рег; , Когда запрос фильтра выполняется как brand%3AhelloWorld%C2%AE solr снова меняет% на% 25. Таким образом, запрос на самом деле выглядит как brand%253AhelloWorld%25C2%25AE, и я не могу получить данные от solr.

Есть идеи, как это решить? Я использую старую версию Solr 4.10.

1 Ответ

0 голосов
/ 15 мая 2018

Если вы используете DataImportHandler, вы можете использовать HTMLStripTransformer .

В противном случае вам придется реализовать эту клиентскую сторону самостоятельно.Если ваш клиент .NET, вы можете использовать HtmlAgilityPack .

...