Производительность модели ML после преобразования StandardScaler на данных TEST - PullRequest
1 голос
/ 20 февраля 2020

Обзор: я новичок в ML и изучаю предварительную обработку sklearn. Я выяснил, что среднее значение не будет равно 0, а стандартное значение не будет равно 1, когда мы используем преобразование предварительной обработки sklearn для данных TEST (причина в том, что мы используем TRAIN data mean / std для стандартизации тестовых данных).

Мой вопрос : Если тестовые данные стандартизированы таким образом (неправильно стандартизированы по нормальному распределению Гаусса со средним значением 0 и стандартным значением 1), то повлияет ли это на прогноз алгоритма ML? Насколько я понимаю, прогноз ML будет иметь низкую точность, поскольку мы даем модели ML неправильно стандартизированные данные.

Скриншот кода для среднего и стандартного значения

1 Ответ

2 голосов
/ 20 февраля 2020

Что вам следует сказать, так это то, что ваши тренировочные и тестовые наборы могут иметь разное распределение. Если ваш тренировочный набор не является репрезентативным для глобальной популяции (здесь представлены данные TEST), то модель не будет так хорошо обобщать.

Это нормально, если ваши тестовые данные не центрированы вокруг нуля с 1-м значением , Смысл этого преобразования состоит в том, чтобы получить все данные в одном и том же диапазоне, так как в противном случае количество алгоритмов будет некорректно (по отношению к намерению пользователя) обновлять модель. Применяя это преобразование, вы говорите «все функции одинаково важны».

Нет такой вещи, как «неправильно стандартизированные данные» (как вы описали), только данные обучения не являются репрезентативными.

...