В настоящее время у меня есть модель SVM, которая классифицирует текст на два разных класса.В настоящее время я использую CountVectorizer и TfidfTransformer для создания своего «вектора слов».
Дело в том, что я думаю, что, может быть, я делаю это в неправильном порядке, когда я сначала делаю преобразование всего текста, а затем делю его на части.
Мой вопрос, будет лиБудет ли какая-то разница, если я сначала выполню train_test_split, а затем выполняю fit_transform только на данных поезда, а затем преобразовываю на тестовых данных?
Как правильно это сделать?
Большое спасибо заранее, счастливого кодирования!
count_vect = CountVectorizer(stop_words='english')
X_counts = count_vect.fit_transform(textList)
tfidf_transformer = TfidfTransformer()
X_tfidf = tfidf_transformer.fit_transform(X_counts)
X_train, X_test, y_train, y_test = train_test_split(X_tfidf, correctLabels, test_size=.33, random_state=17)