Атрибут vocabulary_ выводит словарь, в котором все нграммы являются ключами словаря, а соответствующие значения - положения столбцов каждой нграммы (функции) в матрице tfidf.Метод get_feature_names () выводит список, в котором нграммы отображаются в соответствии с положением столбца каждой функции.Поэтому вы можете использовать любой из них, чтобы определить, какой столбец tfidf соответствует какой функции.В приведенном ниже примере матрица tfidf легко конвертируется во фрейм данных pandas, используя вывод get_feature_names () для именования столбцов.Также обратите внимание, что всем значениям присвоен одинаковый вес и что сумма квадратов всех весов равна единице.
singleTFIDF.vocabulary_
Out[41]:
{'this': 5,
'is': 1,
'simple': 3,
'example': 0,
'this is': 6,
'is simple': 2,
'simple example': 4}
singleTFIDF.get_feature_names()
Out[42]: ['example', 'is', 'is simple', 'simple', 'simple example', 'this', 'this is']
import pandas as pd
df = pd.DataFrame(single.toarray(), columns=singleTFIDF.get_feature_names())
df
Out[48]:
example is is simple simple simple example this this is
0 0.377964 0.377964 0.377964 0.377964 0.377964 0.377964 0.377964