Я использую стандартный анализатор Lucene для разбора текста. однако он возвращает предлоги, а также такие слова, как «я», «the», «и т. д.». Можно ли использовать анализатор, который не возвращает эти слова?
Спасибо
StandardAnalyzer использует StopFilter .
По умолчанию слова в STOP_WORDS_SET исключены. Если этого недостаточно, есть конструкторы, которые позволяют вам передать список стоп-слов, которые должны быть удалены из потока токенов. Вы можете предоставить список, используя File, Set или Reader.
File
Set
Reader