Question

Я хочу извлечь релевантные ключевые слова из html-страницы.

Я уже добавил все html-элементы, разделил текст на слова, использовал стеммер и удалил все слова, появляющиеся в списке стоп-слов, из lucene.

Но теперь у меня все еще есть много основных глаголов и местоимений в качестве наиболее распространенных слов.

Есть ли какой-нибудь метод или набор слов в lucene или snowball или где-либо еще, чтобы отфильтровать все эти вещи, как "Я, это, иди, пошел, я, это, были, мы, ты, мы, ... "

nflacco · Answer 1 · 23 сентября 2011

Вы ищете термин «стоп-слова». Для Lucene это встроено, и вы можете добавить их в StopWordAnalyzer.java (см. http://ankitjain.info/ankit/2009/05/27/lucene-search-ignore-word-list/)

Rob Neuhaus · Answer 2 · 23 сентября 2011

Похоже, довольно простое приложение с обратной частотой документа. Если бы у вас был даже небольшой корпус, скажем, 10 000 веб-страниц, вы могли бы вычислить вероятность появления каждого слова в документе. Затем выберите порог, в котором, по вашему мнению, слова станут интересными или содержательными, и исключите слова до этого порога.

Кроме того, этот список выглядит хорошо. http://www.lextek.com/manuals/onix/stopwords1.html

richiemorrisroe · Answer 3 · 23 сентября 2011

Пакет tm для R обеспечивает интерфейс через R для многих распространенных задач NLP и имеет интерфейс с Weka.Возможно, стоит проверить.Документация: здесь

Рассматривая свой вопрос более кратко, вы, вероятно, ищете функцию removeStopWords() в пакете tm.

Удалить общие английские слова стратегии

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Удалить общие английские слова стратегии

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы