Question

Я пытался получить свою схему Solr (используя Solr 1.3.0) для создания терминов, которые были бы разбиты на символы пробела и пунктуации.Вот несколько примеров того, что я хотел бы видеть:

terms given -> terms tokenized

foo-bar -> foo,bar
one2three4 -> one2three4
multiple words/and some-punctuation -> multiple,words,and,some,punctuation

Я думал, что эта комбинация будет работать:

<fieldType name="text" class="solr.TextField" positionIncrementGap="100">
  <analyzer type="index">
    <tokenizer class="solr.WhitespaceTokenizerFactory"/>
    <filter class="solr.WordDelimiterFilterFactory" generateWordParts="1"/>
  </analyzer
<fieldType>

Проблема в том, что это приводит к следующему для буквыпереходы на номера:

one2three4 -> one,2,three,4

Я пробовал различные комбинации настроек WordDelimiterFilterFactory, но ни одна из них не оказалась полезной.Есть ли фильтр или токенизатор, который может обработать то, что мне нужно?

Raoul Duke · Answer 1 · 08 октября 2010

как насчет

<filter class="solr.WordDelimiterFilterFactory" generateWordParts="1" splitOnNumerics="0" />

, который должен предотвратить разделение one2three4

Как я могу настроить Solr для разбивки по пробелам и пунктуации?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как я могу настроить Solr для разбивки по пробелам и пунктуации?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы