найти лучшие слова, относящиеся ко всем документам - PullRequest
0 голосов
/ 12 сентября 2011

У меня есть более 100.000 текстовых документов.Я хотел бы найти способ ответить на этот (несколько двусмысленный) вопрос:

Для данного подмножества документов, какие n наиболее часто встречающиеся слова - относятся кполный комплект документов?

Я хотел бы представить тенденции, например.облако слов, показывающее что-то вроде «это темы, которые особенно актуальны в данном диапазоне дат».(Да, я знаю, что это упрощение: слова! = Темы и т. Д.)

Кажется, что я мог бы вычислить что-то вроде tf-idf значений для всех слов во всех документах,а затем немного обработать числа, но я не хочу изобретать здесь какие-либо колеса.

Я планирую, возможно, использовать Lucene или Solr для индексациидокументы.Помогут ли они мне с этим вопросом - как?Или вы бы порекомендовали некоторые другие инструменты в дополнение / вместо?

1 Ответ

1 голос
/ 12 сентября 2011

Это должно работать: http://lucene.apache.org/java/3_1_0/api/contrib-misc/org/apache/lucene/misc/HighFreqTerms.html

Этот вопрос StackOverflow также охватывает термины частоты в целом с Lucene.

Если вы еще не использовали Lucene, операцияВы говорите о классической вводной проблеме для Hadoop (проблема «подсчета слов»).

...