Озадаченный этим небольшим тестом на методах fit_transform
и transform
.
У меня есть корпус, представляющий собой список строк
corpus = ['sentence 1',...]
from sklearn.feature_extraction.text import TfidfVectorizer
Vec = TfidfVectorizer()
X_tfidf1 = Vec.fit_transform(corpus)
X_tfidf2 = Vec.transform(corpus)
Но:
np.array_equal(X_tfidf1.todense(),X_tfidf2.todense())
возвращает False, что не имеет смысла для меня, поскольку Vec установлен на моем корпусе, не должны ли две матрицы TFIDF быть одинаковыми?