Неправильный результат в графическом векторизаторе - PullRequest
0 голосов
/ 28 октября 2018

Я пытался найти ответ по этой ссылке: Как найти частоту ngram столбца в кадре данных панд?

Я получаю правильный результат.

Но по моим собственным данным я получаю неправильный результат:

Мои данные содержат 2 экземпляра слова "как сказать":

would like say got excellent
adult like say stylish reading

Но при использовании счетчика векторов

word_vectorizer = CountVectorizer(ngram_range=(2,2),analyzer='word')
sparse_matrix = word_vectorizer.fit_transform(data_copy['2018-1-1']['comment'])
frequencies = sum(sparse_matrix).data
df_count=pd.DataFrame(frequencies, index=word_vectorizer.get_feature_names(), columns=['frequency'])

Результат, который я получаю, - это 340 случаев «как сказать».

Все биграммовые частоты неверны

1 Ответ

0 голосов
/ 28 октября 2018

решаемая.Изменена строка:

sum(sparse_matrix).data

На:

sum(sparse_matrix).toarray()[0]

Я не знаю, в чем причина, хотя

...