Да, StandardAnalyzer разделяется на подчеркивание.WhitespaceAnalyzer не имеет.Обратите внимание, что вы можете использовать PerFieldAnalyzerWrapper для использования различных анализаторов для каждого поля - вы можете захотеть сохранить некоторые функциональные возможности стандартного анализатора для всего, кроме имени таблицы / столбца.
Хотя WhitespaceAnalyzer только разделяет пробельные символы.Например, он не будет строчить ваши токены.Поэтому вы можете захотеть создать свой собственный анализатор, который сочетает в себе WhitespaceTokenizer и LowercaseFilter, или заглянуть в LowercaseTokenizer.
РЕДАКТИРОВАТЬ: простой пользовательский анализатор (в C #, но вы можете довольно легко перевести его на Java):
// Chains together standard tokenizer, standard filter, and lowercase filter
class MyAnalyzer : Analyzer
{
public override TokenStream TokenStream(string fieldName, System.IO.TextReader reader)
{
StandardTokenizer baseTokenizer = new StandardTokenizer(Lucene.Net.Util.Version.LUCENE_29, reader);
StandardFilter standardFilter = new StandardFilter(baseTokenizer);
LowerCaseFilter lcFilter = new LowerCaseFilter(standardFilter);
return lcFilter;
}
}