Question

Я индексирую документы Solr, которые были удалены из Интернета. Документы содержат объекты HTML (например, £ или £). В основном документы содержат символы Центральной Европы. Есть ли какой-нибудь charfilter для этой задачи? Я знаю solr.MappingCharFilterFactory, но использование этого означало бы, что я должен определить сопоставления самостоятельно. Я был бы счастлив с общим решением, поддерживаемым сообществом. Спасибо за вашу помощь!

Artem Lukanin · Answer 1 · 05 сентября 2013

Существует solr.HTMLStripCharFilterFactory, который преобразует HTML сущностей, но также удаляет HTML теги.

Solr индексирует HTML-объекты

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Solr индексирует HTML-объекты

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы