Требуется не удалять теги HTML во время индексации, так как мне требуется содержимое с тегами HTML позже для отображения документа в соответствующем стиле. Я просто хочу текст фрагмента, который генерируется модулем выделения SOLR 5.2.1вернуть текст фрагмента без HTML-тегов. Пожалуйста, предложите, если это можно сделать и как?
PFB-соответствующая часть mannaged-schema.xml:
<fieldType name="text_general" class="solr.TextField" positionIncrementGap="100" multiValued="true">
<analyzer type="index">
<tokenizer class="solr.StandardTokenizerFactory"/>
<filter class="solr.StopFilterFactory" words="stopwords.txt" ignoreCase="true"/>
<filter class="solr.LowerCaseFilterFactory"/>
</analyzer>
<analyzer type="query">
<charFilter class="solr.HTMLStripCharFilterFactory"/>
<tokenizer class="solr.StandardTokenizerFactory"/>
<processor class="solr.HTMLStripFieldUpdateProcessorFactory">
<str name="typeClass">solr.TextField</str>
</processor>
</analyzer>
</fieldType>
PFB-соответствующая часть solrconfig.xml:
<updateRequestProcessorChain name="add-unknown-fields-to-the-schema">
<processor class="solr.HTMLStripFieldUpdateProcessorFactory">
<str name="typeClass">solr.TextField</str>
</processor>
<processor class="solr.RunUpdateProcessorFactory"/>
</updateRequestProcessorChain>