Во-первых, всякий раз, когда вы пытаетесь сделать что-то вроде сравнения производительности модели машинного обучения, пожалуйста, используйте начальное значение. Склеарн использует генератор случайных чисел, чтобы перетасовать данные для оценки вероятности. Это может быть одной из причин несоответствия в точности, поскольку обе модели инициализируются по-разному.
Масштабирование объектов перед вменением всегда лучше, потому что в ваших реальных данных, если большая часть ваших данных находится в диапазоне 0-10, но есть некоторые значения в диапазоне 1000-10000, это повлияет на среднее значение ваших неверные данные, так как вы будете заполнять свои нулевые значения данными, на которые влияет проблема диапазона.
Например:
from sklearn import preprocessing
import numpy as np
X_train = np.array([[ 1., -1., 2.], [ 2., 0., 0.], [ 0., 1., -1000.]])
X_train.mean()
scaler = preprocessing.StandardScaler()
X_train_standard_scaled = scaler.fit_transform(X_train)
X_train_standard_scaled.mean()
Исходные данные и масштабированные данные будут возвращать различное среднее значение, и это среднее значение имеет огромную разницу. Поскольку вы используете «среднее» для вменения данных, если ваши данные имеют другой диапазон, это может привести к проблеме.
Думайте об этом так, поскольку большинство ваших данных находятся в диапазоне 0-10, а некоторые точки данных выше 10000. В этом случае возможно, что вышеупомянутые 10000 точек данных являются аномалиями. Если вы не масштабируете данные заранее, вы также принимаете аномалии, чтобы вменять свои недостающие данные, в итоге вы создаете больше неверных данных, что влияет на точность ваших моделей.