Сначала я применил tfidf_vectorizer к своим обучающим данным.
X_train_counts = tfidf_vectorizer.fit_transform(X_train)
Затем я пытаюсь вывести значение tf-idf предложения «программирование».
test = tfidf_vectorizer.transform(['programming']).reshape(1, -1)
print(test)
результат:
(0, 45295) 1.0
Что представляет эта 1.0? Я подумал, что это может быть значение tf-idf или idf слова «программирование», поскольку значение tf в данном случае равно 1.
Затем я попробовал
test = tfidf_vectorizer.transform(['programming upgrade']).reshape(1, -1)
print(test)
Результат такой:
(0, 60314) 0.7968362696657073
(0, 45295) 0.6041952990095505
Если 1 является значением tf-idf, то в этом случае оно должно быть 0,5, так как значение tf равно 1/2, но это не так.
Так что же обозначает это число? Кажется, это не значение tf, не значение idf и не значение tf-idf.
Смущает