Solr индексирует HTML-объекты - PullRequest
2 голосов
/ 01 июня 2011

Я индексирую документы Solr, которые были удалены из Интернета. Документы содержат объекты HTML (например, £ или £). В основном документы содержат символы Центральной Европы. Есть ли какой-нибудь charfilter для этой задачи? Я знаю solr.MappingCharFilterFactory, но использование этого означало бы, что я должен определить сопоставления самостоятельно. Я был бы счастлив с общим решением, поддерживаемым сообществом. Спасибо за вашу помощь!

1 Ответ

1 голос
/ 05 сентября 2013

Существует solr.HTMLStripCharFilterFactory, который преобразует HTML сущностей, но также удаляет HTML теги.

...