Как правило, векторизатор TfIdf подходит только для обучающих данных, и для получения тестовых данных в том же формате мы выполняем операцию преобразования.Это прежде всего сделано, чтобы избежать утечки данных.Пожалуйста, обратитесь к TfidfVectorizer: следует использовать только в поезде или в поезде + тест .
Итак, сначала подгоните и преобразуйте данные вашего поезда, используя векторизатор tf-idf, а затем для любого входящего набора данных, вы можете использовать тот же векторизатор tf-idf для выполнения требуемого преобразования в векторы tf-idf.
вы могли бы сделать что-то вроде этого,
x_train, x_test, y_train, y_test = train_test_split(
x, y, test_size=0.3, random_state=101
)
transformer = TfidfTransformer()
x_train_tf = transformer.fit_transform(x_train)
x_test_tf = transformer.transform(x_test)