Вы можете легко использовать BengaliNormalizationFilterFactory
или BengaliStemFilterFactory
в своей схеме Solr.
Пример определения в вашем файле схемы (schema.xml или managed-схема) может выглядеть примерно так:
<fieldType name="text_bn" class="solr.TextField" positionIncrementGap="100">
<analyzer>
<tokenizer class="solr.StandardTokenizerFactory"/>
<filter class="solr.BengaliNormalizationFilterFactory"/>
<filter class="solr.BengaliStemFilterFactory"/>
</analyzer>
</fieldType>
Пример нормализации - মানুষ
-> মানুস
и пример применения stemming - সমস্ত
-> সমস্
Если вы хотите искать на обоих языках, я бы порекомендовал создать этот тип поля, а также использовать тип поля по умолчанию text_en
, который доступен в Solr.