Solr Fuzzy Поиск похожих слов - PullRequest
14 голосов
/ 27 марта 2012

Я пытаюсь сделать нечеткий поиск "jahngir" ~ 0.2, который не возвращает никаких результатов.В моих индексах есть записи с данными "JAHANGIR RAHMAN MD".Если я попробую поиск с точным словом "jahangir" ~ 0.2, это сработает.Может кто-нибудь, пожалуйста, помогите, на что я делаю не так.Я потратил много времени, пытаясь понять, как работает поиск Solr Fuzzy.Любые ссылки, которые объясняют поиск Solr Fuzzy, будут полезны.Ниже текстовое поле, которое я использую для индексации.Заранее спасибо.

 <fieldType name="text" class="solr.TextField" positionIncrementGap="100" autoGeneratePhraseQueries="true">
  <analyzer type="index">
    <tokenizer class="solr.WhitespaceTokenizerFactory"/>
    <!-- in this example, we will only use synonyms at query time
    <filter class="solr.SynonymFilterFactory" synonyms="index_synonyms.txt" ignoreCase="true" expand="false"/>
    -->
    <!-- Case insensitive stop word removal.
      add enablePositionIncrements=true in both the index and query
      analyzers to leave a 'gap' for more accurate phrase queries.
    -->
    <filter class="solr.StopFilterFactory"
            ignoreCase="true"
            words="stopwords.txt"
            enablePositionIncrements="true"
            />
    <filter class="solr.WordDelimiterFilterFactory" generateWordParts="1" generateNumberParts="1" catenateWords="1" catenateNumbers="1" catenateAll="0" splitOnCaseChange="1"/>
    <filter class="solr.LowerCaseFilterFactory"/>
    <filter class="solr.KeywordMarkerFilterFactory" protected="protwords.txt"/>
    <filter class="solr.PorterStemFilterFactory"/>
    <filter class="solr.CommonGramsFilterFactory" words="stopwords.txt" ignoreCase="true"/>
    <filter class="solr.EdgeNGramFilterFactory" minGramSize="2" maxGramSize="15" side="front"/>
    <filter class="solr.PhoneticFilterFactory" encoder="DoubleMetaphone" inject="false"/>
  </analyzer>
  <analyzer type="query">
    <tokenizer class="solr.WhitespaceTokenizerFactory"/>
    <filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true"/>
    <filter class="solr.StopFilterFactory"
            ignoreCase="true"
            words="stopwords.txt"
            enablePositionIncrements="true"
            />
    <filter class="solr.WordDelimiterFilterFactory" generateWordParts="1" generateNumberParts="1" catenateWords="0" catenateNumbers="0" catenateAll="0" splitOnCaseChange="1"/>
    <filter class="solr.LowerCaseFilterFactory"/>
    <filter class="solr.KeywordMarkerFilterFactory" protected="protwords.txt"/>
    <filter class="solr.PorterStemFilterFactory"/>
    <filter class="solr.CommonGramsFilterFactory" words="stopwords.txt" ignoreCase="true"/>
    <filter class="solr.EdgeNGramFilterFactory" minGramSize="2" maxGramSize="15" side="front"/>
    <filter class="solr.PhoneticFilterFactory" encoder="DoubleMetaphone" inject="false"/>
  </analyzer>
</fieldType>

Вот конфигурация, которая работала для меня после ответа.Спасибо!

<!-- Modified to fit fuzzy queries -->  
    <fieldType name="text_exact_fuzzy" class="solr.TextField" omitNorms="false">
      <analyzer type="index">
          <tokenizer class="solr.StandardTokenizerFactory"/>
          <filter class="solr.StandardFilterFactory"/>
          <filter class="solr.LowerCaseFilterFactory"/>
        </analyzer>
      <analyzer type="query">
        <tokenizer class="solr.StandardTokenizerFactory"/>
        <filter class="solr.StandardFilterFactory"/>
        <filter class="solr.LowerCaseFilterFactory"/>
      </analyzer>
    </fieldType>

Ответы [ 2 ]

19 голосов
/ 29 марта 2012

Нет, вам не нужно включать стемминг, и проблема может быть связана с использованием стеммера.

У вас слишком много фильтров в текстовом поле.Вы конвертируете слово в основание Портера, которое часто не является реальным словом, а затем берете фонетический ключ этого.Поверхностное слово редко будет совпадать с фонетическим ключом, хранящимся в индексе.Фонетический ключ будет сильно отличаться от исходного слова.

Используйте страницу анализатора в пользовательском интерфейсе администратора, чтобы увидеть, как обрабатываются термины.

Я рекомендую разбивать виды приблизительного соответствия на разные поля..

  • text_exact: нижний регистр, вот и все

    Используйте нечеткое сопоставление с text_exact, потому что оно обрабатывает ошибки ввода.Не используйте нечёткое отношение к другим полям.

    Вы можете взвешивать эти поля по-разному, точное совпадение - это совпадение более высокого качества, чем остальные, поэтому оно может иметь больший вес.Сопоставление на основе ствола лучше, чем фонетическое, поэтому оно должно иметь вес меньше точного, но больше фонетического.

0 голосов
/ 27 марта 2012

Для того, чтобы заставить Fuzzy Searches работать, вам нужно включить правильный Stemming и / или Filter Factory для вашего языка.Пожалуйста, обратитесь к теме Langauge Analysis в Solr Wiki для более подробной информации.

Редактировать: См. Анализаторы, токенизаторы и токен-фильтры для более подробной информации о различных способах индексации ваших данных и о том, как это влияет на поиск ваших данных.

...