Обратите внимание, что vectorizer.fit_transform
возвращает матрицу срочных документов, которую вы хотите получить. Так что сохраните то, что он возвращает, и используйте todense
, так как оно будет в разреженном формате:
Возвращает : X: разреженная матрица, [n_samples, n_features].
Tf-idf-взвешенная матрица термина документа.
a = vectorizer.fit_transform(text)
a.todense()
matrix([[0.36388646, 0.27674503, 0.27674503, 0.36388646, 0.36388646,
0.36388646, 0.36388646, 0.42983441],
[0. , 0.78980693, 0. , 0. , 0. ,
0. , 0. , 0.61335554],
[0. , 0. , 0.78980693, 0. , 0. ,
0. , 0. , 0.61335554]])