Удалить общие английские слова стратегии - PullRequest
0 голосов
/ 23 сентября 2011

Я хочу извлечь релевантные ключевые слова из html-страницы.

Я уже добавил все html-элементы, разделил текст на слова, использовал стеммер и удалил все слова, появляющиеся в списке стоп-слов, из lucene.

Но теперь у меня все еще есть много основных глаголов и местоимений в качестве наиболее распространенных слов.

Есть ли какой-нибудь метод или набор слов в lucene или snowball или где-либо еще, чтобы отфильтровать все эти вещи, как "Я, это, иди, пошел, я, это, были, мы, ты, мы, ... "

Ответы [ 3 ]

4 голосов
/ 23 сентября 2011

Вы ищете термин «стоп-слова». Для Lucene это встроено, и вы можете добавить их в StopWordAnalyzer.java (см. http://ankitjain.info/ankit/2009/05/27/lucene-search-ignore-word-list/)

2 голосов
/ 23 сентября 2011

Похоже, довольно простое приложение с обратной частотой документа. Если бы у вас был даже небольшой корпус, скажем, 10 000 веб-страниц, вы могли бы вычислить вероятность появления каждого слова в документе. Затем выберите порог, в котором, по вашему мнению, слова станут интересными или содержательными, и исключите слова до этого порога.

Кроме того, этот список выглядит хорошо. http://www.lextek.com/manuals/onix/stopwords1.html

1 голос
/ 23 сентября 2011

Пакет tm для R обеспечивает интерфейс через R для многих распространенных задач NLP и имеет интерфейс с Weka.Возможно, стоит проверить.Документация: здесь

Рассматривая свой вопрос более кратко, вы, вероятно, ищете функцию removeStopWords() в пакете tm.

...