Я ищу простой скрипт, который может найти частоты слов для данного документа (возможно, с помощью переносного стеммера).
Есть ли какая-либо библиотека или простой скрипт, который выполняет этот процесс?
использование nltk
import nltk YOUR_STRING = "Your words" words = [w for w in YOUR_STRING.split()] freq_dist = nltk.FreqDist(words) tokens = freq_dist.keys() #50 most frequent most_frequent = tokens[:50] #50 least frequent least_frequent = tokens[-50:]
Вы должны быть в состоянии считать слова.Используйте collections.Counter или dict, в зависимости от того, что вам нужно.Эта часть проста, но если это не так, вы можете найти ответ, выполнив поиск по самой SO.
collections.Counter
dict
Я думаю, вам также нужен Porter Stemmer, который имеет версию Python на http://tartarus.org/~martin/PorterStemmer/python.txt