Я хочу извлечь релевантные ключевые слова из html-страницы.
Я уже добавил все html-элементы, разделил текст на слова, использовал стеммер и удалил все слова, появляющиеся в списке стоп-слов, из lucene.
Но теперь у меня все еще есть много основных глаголов и местоимений в качестве наиболее распространенных слов.
Есть ли какой-нибудь метод или набор слов в lucene или snowball или где-либо еще, чтобы отфильтровать все эти вещи, как "Я, это, иди, пошел, я, это, были, мы, ты, мы, ... "