сумма столбцов матрицы матрицы векторов - PullRequest
0 голосов
/ 26 сентября 2019

Как получить сумму любого данного столбца в матрице частот термина, возвращенной sklearn CountVectorizer

import pandas as pd
from sklearn.feature_extraction.text import CountVectorizer
vectorizer = CountVectorizer()

corpus = [ 'This is a sentence',
           'Another sentence is here',
           'Wait for another sentence',
           'The sentence is coming',
           'The sentence has come'
         ]

x = vectorizer.fit_transform(corpus)

Теперь я хочу узнать частоту sentence в матрице.Поэтому я хочу сумму столбца sentence.Я не мог найти способ сделать это.Любая помощь высоко ценится.Например, я попытался x['sentence'].sum(), но это не помогло

Я также попытался преобразовать это в фрейм данных pandas и вычислить сумму, но я не хочу конвертировать эту матрицу в фрейм данных.

1 Ответ

1 голос
/ 26 сентября 2019

Вы можете попробовать следующее:

  1. Импортировать numpy для суммирования вхождений.
  2. Получить позицию вашего термина в списке имен объектов CountVectorizer.
  3. Используйте позицию для суммирования всего этого столбца в матрице CSR ( x , в вашем случае).

Код:

import numpy as np

term_to_sum = 'sentence'

index_term = vectorizer.get_feature_names().index(term_to_sum)

s = np.sum(x[:, index_term])  # here you get the sum

Это должно бытьдостаточно :) 1016

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...