Разбор HTML в SOLR для хранения, а не индексации - PullRequest
5 голосов
/ 02 марта 2010

Эй, ребята, мне удалось убрать HTML из контента при индексации данных в SOLR.

Но возможно ли вырезать HTML из данных при простом хранении данных?

Это мое поле:

<field name="Content" type="textNoHTML" indexed="true" stored="true"/>

И тип поля "textNoHTML" реализует solr.HTMLStripCharFilterFactory:

<charFilter class="solr.HTMLStripCharFilterFactory" />

Как я уже сказал, это прекрасно работает для индексации, но возможно ли применить подобный фильтр для хранения?

ура!

1 Ответ

3 голосов
/ 02 марта 2010

Если вы используете DataImportHandler, вы можете использовать HTMLStripTransformer .

В противном случае вам придется реализовать эту клиентскую сторону самостоятельно. Если ваш клиент .NET, вы можете использовать HtmlAgilityPack .

...