Если вы используете CountVectorizer , вы можете получить количество вхождений (частоту) каждого слова в текстовом корпусе:
vec = CountVectorizer().fit(corpus)
bag_of_words = vec.transform(corpus)
sum_words = bag_of_words.sum(axis=0)
words_freq = [(word, sum_words[0, idx]) for word, idx in vec.vocabulary_.items()]
words_freq =sorted(words_freq, key = lambda x: x[1], reverse=True)
Вы также можете получить важность каждой функции (слово) на основе одномерного статистического теста с использованием SelectKBest :
from sklearn.feature_selection import SelectKBest, chi2
...
skb = SelectKBest(chi2, k="all").fit(X, y)
feature_importnace = skb.scores_
Путем обучения RandomForestClassifier:
from sklearn.ensemble import RandomForestClassifier
clf = RandomForestClassifier()
model = clf.fit(X, y)
# Calculate feature importances
importances = model.feature_importances_