У меня есть датафрейм, где один из столбцов - текст. Я хочу конвертировать его, используя tfidf vectorizer. Ниже кода, где текстовый столбец равен complaint
tfidf = TfidfVectorizer(sublinear_tf=True, min_df=5,ngram_range=(1, 2), stop_words='english')
complain_features = tfidf.fit_transform(df.complaint.values.astype('str')).toarray()
Когда я печатаю complain_features
, выводится все ноль. Поэтому, когда я конвертирую это pandas датафрейм, это все NaN
array([[0., 0., 0., ..., 0., 0., 0.],
[0., 0., 0., ..., 0., 0., 0.],
[0., 0., 0., ..., 0., 0., 0.],
...,
[0., 0., 0., ..., 0., 0., 0.],
[0., 0., 0., ..., 0., 0., 0.],
[0., 0., 0., ..., 0., 0., 0.]])
Может кто-нибудь подсказать, что мне здесь не хватает?