Я хотел бы посчитать частоту термина через корпус. Для этого есть два способа, которые использовали CountVectorizer
и сумму в axis=0
, как показано ниже.
count_vec = CountVectorizer(tokenizer=cab_tokenizer, ngram_range=(1,2), stop_words=stopwords)
cv_X = count_vec.fit_transform(string_list)
Другой способ - использовать WordCloud.process_text()
(см. Документ здесь ), что приведет к частоте слагаемых dict
. Я использовал стоп-слово из ранее TfIdfVectorizer
, используя tfidf_vec.get_stop_words()
.
text_freq = WordCloud(stopwords=stopwords, collocations=True).process_text(text)
Тот факт, что я использую стоп-слова из TfIdfVectorizer
, я ожидаю, что это будет вести себя так же, однако, особенности / термины, которые я получаю, отличаются (длина dict меньше, чем TfIdfVectorizer.get_feature_names()
.
Итак, мне интересно, чем отличается использование одного поверх другого? Один точнее другого?