Что вам следует сказать, так это то, что ваши тренировочные и тестовые наборы могут иметь разное распределение. Если ваш тренировочный набор не является репрезентативным для глобальной популяции (здесь представлены данные TEST), то модель не будет так хорошо обобщать.
Это нормально, если ваши тестовые данные не центрированы вокруг нуля с 1-м значением , Смысл этого преобразования состоит в том, чтобы получить все данные в одном и том же диапазоне, так как в противном случае количество алгоритмов будет некорректно (по отношению к намерению пользователя) обновлять модель. Применяя это преобразование, вы говорите «все функции одинаково важны».
Нет такой вещи, как «неправильно стандартизированные данные» (как вы описали), только данные обучения не являются репрезентативными.