У меня есть pandas фрейм данных, который выглядит следующим образом:
df.head()
categorized.Hashtags
0 icietmaintenant supyoga standuppaddleportugal ...
1 instapaysage bretagne labellebretagne bretagne...
2 bretagne lescrepescestlavie quimper bzh labret...
3 bretagne mer paysdiroise magnifique phare plou...
4 bateaux baiededouarnenez voiliers vieuxgreemen..
Теперь вместо использования команды pandas get_dummmies () я хотел бы использовать CountVectorizer для создания того же вывода. Поскольку get_dummies занимает слишком много времени.
df_x = df["categorized.Hashtags"]
vect = CountVectorizer(min_df=0.,max_df=1.0)
X = vect.fit_transform(df_x)
count_vect_df = pd.DataFrame(X.todense(), columns = vect.get_feature_names())
Когда я сейчас вывожу соответствующий фрейм данных «count_vect_df», тогда фрейм данных содержит много пустых столбцов / содержит только нулевые значения. Как я могу избежать этого?
Ура, Анди