влияние фильтров на результаты поиска в solr - PullRequest
0 голосов
/ 29 июня 2011

когда я запрашиваю "элегантность" в solr, я получаю результаты и для "элегантности".

Я использовал эти фильтры для анализа индекса

WhitespaceTokenizerFactory
StopFilterFactory
WordDelimiterFilterFactory
LowerCaseFilterFactory
SynonymFilterFactory
EnglishPorterFilterFactory
RemoveDuplicatesTokenFilterFactory
ReversedWildcardFilterFactory

и для анализа запроса:

WhitespaceTokenizerFactory
SynonymFilterFactory
StopFilterFactory
WordDelimiterFilterFactory
LowerCaseFilterFactory
EnglishPorterFilterFactory
RemoveDuplicatesTokenFilterFactory 

Я хочу знать, какой фильтр влияет на результаты моего поиска.

1 Ответ

0 голосов
/ 29 июня 2011

EnglishPorterFilterFactory

Вот краткий ответ;)

Немного больше информации:

Английский Портер - это английский портер, родословная. И элегантность, и элегантность имеют в соответствии со стеммером (который является эвристическим словом построитель корней) один и тот же стебель.

Вы можете проверить это онлайн, например. Здесь . В основном вы увидите, что "eleg ant " и "eleg ance " связаны с одним и тем же стеблем> eleg .

Из источника Solr:

       public void inform(ResourceLoader loader) {
            String wordFiles = args.get(PROTECTED_TOKENS);
            if (wordFiles != null) {
                try {

Здесь в игру вступает файл прототипов:

                    File protectedWordFiles = new File(wordFiles);
                    if (protectedWordFiles.exists()) {
                        List<String> wlist = loader.getLines(wordFiles);
                        //This cast is safe in Lucene
                        protectedWords = new CharArraySet(wlist, false);//No need to go through StopFilter as before, since it just uses a List internally
                    } else {
                        List<String> files = StrUtils
                                .splitFileNames(wordFiles);
                        for (String file : files) {
                            List<String> wlist = loader.getLines(file
                                    .trim());
                            if (protectedWords == null)
                                protectedWords = new CharArraySet(wlist,
                                        false);
                            else
                                protectedWords.addAll(wlist);
                        }
                    }
                } catch (IOException e) {
                    throw new RuntimeException(e);
                }
            }
        }

Это та часть, которая влияет на ствол. Там вы видите вызов библиотеки снежного кома

        public EnglishPorterFilter create(TokenStream input) {
            return new EnglishPorterFilter(input, protectedWords);
        }

    }

    /**
     * English Porter2 filter that doesn't use reflection to
     * adapt lucene to the snowball stemmer code.
     */
    @Deprecated
    class EnglishPorterFilter extends SnowballPorterFilter {
        public EnglishPorterFilter(TokenStream source,
                CharArraySet protWords) {
            super (source, new org.tartarus.snowball.ext.EnglishStemmer(),
                    protWords);
        }
    }
...