WordCloud.process_text против CountVectorizer Склеарна - PullRequest
0 голосов
/ 08 марта 2019

Я хотел бы посчитать частоту термина через корпус. Для этого есть два способа, которые использовали CountVectorizer и сумму в axis=0, как показано ниже.

count_vec = CountVectorizer(tokenizer=cab_tokenizer, ngram_range=(1,2), stop_words=stopwords)
cv_X = count_vec.fit_transform(string_list)

Другой способ - использовать WordCloud.process_text() (см. Документ здесь ), что приведет к частоте слагаемых dict. Я использовал стоп-слово из ранее TfIdfVectorizer, используя tfidf_vec.get_stop_words().

text_freq = WordCloud(stopwords=stopwords, collocations=True).process_text(text)

Тот факт, что я использую стоп-слова из TfIdfVectorizer, я ожидаю, что это будет вести себя так же, однако, особенности / термины, которые я получаю, отличаются (длина dict меньше, чем TfIdfVectorizer.get_feature_names().

Итак, мне интересно, чем отличается использование одного поверх другого? Один точнее другого?

...