У меня есть более 100.000 текстовых документов.Я хотел бы найти способ ответить на этот (несколько двусмысленный) вопрос:
Для данного подмножества документов, какие n наиболее часто встречающиеся слова - относятся кполный комплект документов?
Я хотел бы представить тенденции, например.облако слов, показывающее что-то вроде «это темы, которые особенно актуальны в данном диапазоне дат».(Да, я знаю, что это упрощение: слова! = Темы и т. Д.)
Кажется, что я мог бы вычислить что-то вроде tf-idf значений для всех слов во всех документах,а затем немного обработать числа, но я не хочу изобретать здесь какие-либо колеса.
Я планирую, возможно, использовать Lucene или Solr для индексациидокументы.Помогут ли они мне с этим вопросом - как?Или вы бы порекомендовали некоторые другие инструменты в дополнение / вместо?