Я пытался найти ответ по этой ссылке: Как найти частоту ngram столбца в кадре данных панд?
Я получаю правильный результат.
Но по моим собственным данным я получаю неправильный результат:
Мои данные содержат 2 экземпляра слова "как сказать":
would like say got excellent
adult like say stylish reading
Но при использовании счетчика векторов
word_vectorizer = CountVectorizer(ngram_range=(2,2),analyzer='word')
sparse_matrix = word_vectorizer.fit_transform(data_copy['2018-1-1']['comment'])
frequencies = sum(sparse_matrix).data
df_count=pd.DataFrame(frequencies, index=word_vectorizer.get_feature_names(), columns=['frequency'])
Результат, который я получаю, - это 340 случаев «как сказать».
Все биграммовые частоты неверны