Удалите HTML-теги в генерируемом фрагменте SOLR 5.2.1. - PullRequest
0 голосов
/ 11 декабря 2018

Требуется не удалять теги HTML во время индексации, так как мне требуется содержимое с тегами HTML позже для отображения документа в соответствующем стиле. Я просто хочу текст фрагмента, который генерируется модулем выделения SOLR 5.2.1вернуть текст фрагмента без HTML-тегов. Пожалуйста, предложите, если это можно сделать и как?

PFB-соответствующая часть mannaged-schema.xml:

  <fieldType name="text_general" class="solr.TextField" positionIncrementGap="100" multiValued="true">
    <analyzer type="index">
      <tokenizer class="solr.StandardTokenizerFactory"/>
      <filter class="solr.StopFilterFactory" words="stopwords.txt" ignoreCase="true"/>
      <filter class="solr.LowerCaseFilterFactory"/>
    </analyzer>
    <analyzer type="query">
      <charFilter class="solr.HTMLStripCharFilterFactory"/>
      <tokenizer class="solr.StandardTokenizerFactory"/>
      <processor class="solr.HTMLStripFieldUpdateProcessorFactory">
            <str name="typeClass">solr.TextField</str>
      </processor>
    </analyzer>
  </fieldType>

PFB-соответствующая часть solrconfig.xml:

<updateRequestProcessorChain name="add-unknown-fields-to-the-schema">
<processor class="solr.HTMLStripFieldUpdateProcessorFactory">
    <str name="typeClass">solr.TextField</str>
</processor>
<processor class="solr.RunUpdateProcessorFactory"/>
</updateRequestProcessorChain>
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...