Предположим, у вас есть счетчик чисел в виде pandas.DataFrame
, например:
import pandas as pd
data = [[1,2,0,0],[2,0,0,2],[3,0,2,0]]
df = pd.DataFrame(data,columns=['doc','apple','banana','cat'])
df
Выход :
doc apple banana cat
0 1 2 0 0
1 2 0 0 2
2 3 0 2 0
Тогда вы можете использовать sklearn.feature_extraction.text.TfidfVectorizer
чтобы получить вектор tf-idf следующим образом:
from sklearn.feature_extraction.text import TfidfVectorizer
v = TfidfVectorizer()
x = v.fit_transform(df)
df1 = pd.DataFrame(x.toarray(), columns=v.get_feature_names())
print(df1)
Вывод :
apple banana cat doc
0 0.0 0.0 0.0 1.0
1 1.0 0.0 0.0 0.0
2 0.0 1.0 0.0 0.0
3 0.0 0.0 1.0 0.0