Оценить производительность при индексации многозначного индексированного поля - PullRequest
0 голосов
/ 03 июня 2018

Я использую SOLR 7.2 и пытаюсь проиндексировать документ 133k с помощью dataimportHandler.

Проблема в том, что индексация занимает слишком много времени (4 часа), особенно после индексации документов 50k.После тщательного анализа этой проблемы я обнаружил, что индексированные мутированные значения поля ответственны за эту сложную индексацию.Однако при установке для многозначных полей значения indexed = "false" индексация идет очень быстро (пара минут).

Есть ли способ ускорить изменение конфигурации индексации или что-то еще?

   <fieldType name="text_fr_lemmatized" class="solr.TextField" positionIncrementGap="100">
  <analyzer type="index">
     <charFilter class="solr.MappingCharFilterFactory" mapping="mapping-select.txt" />
     <charFilter class="solr.MappingCharFilterFactory" mapping="mapping-apostrophe.txt" />
     <charFilter class="solr.MappingCharFilterFactory" mapping="mapping-ponctuation.txt" />   
     <charFilter class="solr.MappingCharFilterFactory" mapping="mapping-ISOLatin1Accent.txt" />   
     <tokenizer class="solr.StandardTokenizerFactory" />

     <filter class="solr.LowerCaseFilterFactory" />

     <filter class="solr.ElisionFilterFactory" ignoreCase="true" articles="lang/contractions_fr.txt" />


     <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" />
     <filter class="solr.StopFilterFactory" ignoreCase="true" words="lang/stopwords_ar.txt" />
     <filter class="solr.StopFilterFactory" ignoreCase="true" words="lang/stopwords_fr.txt" />
     <filter class="solr.StopFilterFactory" ignoreCase="true" words="lang/stopwords_en.txt" />
     <filter class="solr.HunspellStemFilterFactory" dictionary="fr_FR.dic" affix="fr_FR.aff" ignoreCase="true" strictAffixParsing="true" />

         <filter class="solr.LowerCaseFilterFactory" />

  </analyzer>

...