что представляет столбец в матрице tfidf? - PullRequest
0 голосов
/ 09 марта 2019

Я пытаюсь понять результат матрицы TF-IDF.Вот код, который я использую.

sen1 = TextBlob("This is a sample")
d1 = sen1.words
from sklearn.feature_extraction.text import TfidfVectorizer
tfvectorizer = TfidfVectorizer()
tfidf= TfidfVectorizer(tokenizer=identity_tokenizer, stop_words='english', lowercase=False)    
tf = tfidf.fit_transform(d1).todense()

Итак, я пытаюсь понять полученную таким образом матрицу tf.Ниже приводится прикрепленное изображение матрицы tf. enter image description here

Может кто-нибудь помочь мне, почему у меня есть 7 столбцов для корпуса из 4 слов?Представляют ли строки количество слов.

Из того, что я изучаю на разных ресурсах, можно сказать: «В результате получается матрица баллов tf-idf с одной строкой на документ и таким количеством столбцов, сколько разных слов вНабор данных «.Но я не могу проверить это по полученному здесь результату.

...