Представьте себе простую задачу регрессии, где вы используете градиентный спуск. Для правильной реализации вам нужно будет масштабировать значения, используя среднее значение всего набора обучающих данных. Представьте, что ваша модель уже обучена, и вы подаете ей еще один пример, который вы хотите предсказать. Как правильно масштабировать его по отношению к предыдущему набору данных? Включаете ли вы новый пример в обучающий набор, а затем масштабируете его по среднему значению этого обучающего набора данных + новые точки данных? Как это сделать правильно?
Обращаясь к новым точкам данных, я имею в виду то, чего модель раньше не видела ни в обучении, ни в тестировании. Как вы обрабатываете масштабирование для всего, что вы передаете regr.predict (), если масштабирование тренировочного набора выполняется по всему набору, а не по одному наблюдению.
Представьте, что у вас есть набор функций:
to_predict = [10, 12, 1, 330, 1311, 225].
Набор данных, используемый для обучения и тестирования, уже колеблется около 0 для каждой функции. Принимая во внимание ответ ниже (псевдокод, поэтому я спрашиваю, как это сделать правильно):
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
new_Xs = X_train.append(to_predict)
X_train_std_with_new = scalar.fit_transform(new_Xs)
scaled_to_predit = X_train_std_with_new[-1]
regr.predict(scaled_to_predict) ??