lucene standardanalyzer удаляет стоп-слова и имеет функцию ствола? - PullRequest
3 голосов
/ 18 марта 2012

Я протестировал стандартный анализатор с indexWriter и обнаружил, что он автоматически удаляет стоп-слова, однако я не добавил список стоп-слов, так как я использовал следующий код

StandardAnalyzer analyzer = new StandardAnalyzer(Version.LUCENE_35); 
        IndexWriterConfig config =new IndexWriterConfig(Version.LUCENE_35, analyzer);

где находится список стоп-слов по умолчанию? кроме того, этот анализатор тоже автоматически выводит слова ??

1 Ответ

4 голосов
/ 18 марта 2012

В соответствии с API документами существует набор стоп-слов по умолчанию (взят из английского языка), хранящихся в StandardAnalyzer.STOP_WORDS_SET. Он используется, если вы создаете анализатор с конструктором public StandardAnalyzer(Version matchVersion), который именно то, что вы делаете. Набор точно такой же, как StopAnalyzer.ENGLISH_STOP_WORDS_SET. Вы можете использовать один из других конструкторов для передачи анализатору другого (возможно, пустого) набора стоп-слов.

StandardAnalyzer не содержит слов. Если вам нужно остановить, используйте, например, SnowballAnalyzer.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...