Question

Я пытаюсь сделать нечеткий поиск "jahngir" ~ 0.2, который не возвращает никаких результатов.В моих индексах есть записи с данными "JAHANGIR RAHMAN MD".Если я попробую поиск с точным словом "jahangir" ~ 0.2, это сработает.Может кто-нибудь, пожалуйста, помогите, на что я делаю не так.Я потратил много времени, пытаясь понять, как работает поиск Solr Fuzzy.Любые ссылки, которые объясняют поиск Solr Fuzzy, будут полезны.Ниже текстовое поле, которое я использую для индексации.Заранее спасибо.

 <fieldType name="text" class="solr.TextField" positionIncrementGap="100" autoGeneratePhraseQueries="true">
  <analyzer type="index">
    <tokenizer class="solr.WhitespaceTokenizerFactory"/>
    <!-- in this example, we will only use synonyms at query time
    <filter class="solr.SynonymFilterFactory" synonyms="index_synonyms.txt" ignoreCase="true" expand="false"/>
    -->
    <!-- Case insensitive stop word removal.
      add enablePositionIncrements=true in both the index and query
      analyzers to leave a 'gap' for more accurate phrase queries.
    -->
    <filter class="solr.StopFilterFactory"
            ignoreCase="true"
            words="stopwords.txt"
            enablePositionIncrements="true"
            />
    <filter class="solr.WordDelimiterFilterFactory" generateWordParts="1" generateNumberParts="1" catenateWords="1" catenateNumbers="1" catenateAll="0" splitOnCaseChange="1"/>
    <filter class="solr.LowerCaseFilterFactory"/>
    <filter class="solr.KeywordMarkerFilterFactory" protected="protwords.txt"/>
    <filter class="solr.PorterStemFilterFactory"/>
    <filter class="solr.CommonGramsFilterFactory" words="stopwords.txt" ignoreCase="true"/>
    <filter class="solr.EdgeNGramFilterFactory" minGramSize="2" maxGramSize="15" side="front"/>
    <filter class="solr.PhoneticFilterFactory" encoder="DoubleMetaphone" inject="false"/>
  </analyzer>
  <analyzer type="query">
    <tokenizer class="solr.WhitespaceTokenizerFactory"/>
    <filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true"/>
    <filter class="solr.StopFilterFactory"
            ignoreCase="true"
            words="stopwords.txt"
            enablePositionIncrements="true"
            />
    <filter class="solr.WordDelimiterFilterFactory" generateWordParts="1" generateNumberParts="1" catenateWords="0" catenateNumbers="0" catenateAll="0" splitOnCaseChange="1"/>
    <filter class="solr.LowerCaseFilterFactory"/>
    <filter class="solr.KeywordMarkerFilterFactory" protected="protwords.txt"/>
    <filter class="solr.PorterStemFilterFactory"/>
    <filter class="solr.CommonGramsFilterFactory" words="stopwords.txt" ignoreCase="true"/>
    <filter class="solr.EdgeNGramFilterFactory" minGramSize="2" maxGramSize="15" side="front"/>
    <filter class="solr.PhoneticFilterFactory" encoder="DoubleMetaphone" inject="false"/>
  </analyzer>
</fieldType>

Вот конфигурация, которая работала для меня после ответа.Спасибо!

<!-- Modified to fit fuzzy queries -->  
    <fieldType name="text_exact_fuzzy" class="solr.TextField" omitNorms="false">
      <analyzer type="index">
          <tokenizer class="solr.StandardTokenizerFactory"/>
          <filter class="solr.StandardFilterFactory"/>
          <filter class="solr.LowerCaseFilterFactory"/>
        </analyzer>
      <analyzer type="query">
        <tokenizer class="solr.StandardTokenizerFactory"/>
        <filter class="solr.StandardFilterFactory"/>
        <filter class="solr.LowerCaseFilterFactory"/>
      </analyzer>
    </fieldType>

Walter Underwood · Answer 1 · 29 марта 2012

Нет, вам не нужно включать стемминг, и проблема может быть связана с использованием стеммера.

У вас слишком много фильтров в текстовом поле.Вы конвертируете слово в основание Портера, которое часто не является реальным словом, а затем берете фонетический ключ этого.Поверхностное слово редко будет совпадать с фонетическим ключом, хранящимся в индексе.Фонетический ключ будет сильно отличаться от исходного слова.

Используйте страницу анализатора в пользовательском интерфейсе администратора, чтобы увидеть, как обрабатываются термины.

Я рекомендую разбивать виды приблизительного соответствия на разные поля..

text_exact: нижний регистр, вот и все
Используйте нечеткое сопоставление с text_exact, потому что оно обрабатывает ошибки ввода.Не используйте нечёткое отношение к другим полям.

Вы можете взвешивать эти поля по-разному, точное совпадение - это совпадение более высокого качества, чем остальные, поэтому оно может иметь больший вес.Сопоставление на основе ствола лучше, чем фонетическое, поэтому оно должно иметь вес меньше точного, но больше фонетического.

Paige Cook · Answer 2 · 27 марта 2012

Для того, чтобы заставить Fuzzy Searches работать, вам нужно включить правильный Stemming и / или Filter Factory для вашего языка.Пожалуйста, обратитесь к теме Langauge Analysis в Solr Wiki для более подробной информации.

Редактировать: См. Анализаторы, токенизаторы и токен-фильтры для более подробной информации о различных способах индексации ваших данных и о том, как это влияет на поиск ваших данных.

Solr Fuzzy Поиск похожих слов

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Solr Fuzzy Поиск похожих слов

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы