Я работаю над проектом, в котором мне нужно проанализировать страницу текста и наборы страниц текста, чтобы определить доминирующие слова. Я хотел бы знать, если есть библиотека (предпочитают C # или Java), которая будет обрабатывать тяжелую работу для меня. Если нет, есть ли алгоритм или несколько, которые бы достигли моих целей ниже.
То, что я хочу сделать, аналогично облакам слов, построенным из URL или RSS-канала, которые вы найдете в Интернете, за исключением того, что я не хочу визуализации. Они все время используются для анализа речей кандидатов в президенты, чтобы увидеть, какова тема или наиболее употребляемые слова.
Сложность в том, что мне нужно сделать это с тысячами коротких документов, а затем с коллекциями или категориями этих документов.
Мой первоначальный план состоял в том, чтобы проанализировать документ, затем отфильтровать общие слова - из, он, она и т. Д. Затем подсчитать, сколько раз оставшиеся слова появляются в тексте (и в целом коллекции / категории) ,
Проблема заключается в том, что в будущем я хотел бы работать с основами, множественными формами и т. Д. Я также хотел бы посмотреть, есть ли способ определить важные фразы. (Вместо количества слов, количество фраз составляет 2-3 слова вместе)
Будем благодарны за любые рекомендации по стратегии, библиотекам или алгоритмам, которые могут помочь.