Python CountVectorizer для Pandas DataFrame - PullRequest
0 голосов
/ 02 марта 2020

У меня есть pandas фрейм данных, который выглядит следующим образом:

 df.head()
                                categorized.Hashtags
 0    icietmaintenant supyoga standuppaddleportugal ...
 1    instapaysage bretagne labellebretagne bretagne...
 2    bretagne lescrepescestlavie quimper bzh labret...
 3    bretagne mer paysdiroise magnifique phare plou...
 4    bateaux baiededouarnenez voiliers vieuxgreemen..

Теперь вместо использования команды pandas get_dummmies () я хотел бы использовать CountVectorizer для создания того же вывода. Поскольку get_dummies занимает слишком много времени.

df_x = df["categorized.Hashtags"]
vect = CountVectorizer(min_df=0.,max_df=1.0)
X = vect.fit_transform(df_x)
count_vect_df = pd.DataFrame(X.todense(), columns = vect.get_feature_names())

Когда я сейчас вывожу соответствующий фрейм данных «count_vect_df», тогда фрейм данных содержит много пустых столбцов / содержит только нулевые значения. Как я могу избежать этого?

Ура, Анди

1 Ответ

0 голосов
/ 02 марта 2020

С scikit-learn CountVectorizer документы:

Преобразование коллекции текстовых документов в матрицу подсчета токенов

Эта реализация создает разреженное представление считает с использованием scipy.sparse.csr_matrix.

* CountVectorizer возвращает sparse-matrix, который содержит большинство нулевых значений, где ненулевые значения представляют количество раз, которое указывает c термин появился в конкретном документе.

...