Когда вы выбираете стандартизировать для K-средних в потоке, он стандартизирует столбцы перед вычислением расстояний (настройка показана ниже).
![enter image description here](https://i.stack.imgur.com/Tc8Go.png)
Таким образом, чтобы ответить на ваш вопрос, "inside_cluster_sum_of_squares" - это вычисление расстояния, которое вычисляется после выполнения стандартизации.
Одной из причин, по которой ваше значение показателя может показаться слишком большим, может быть, если вы ожидаете, что опция стандартизации H2O-3 Kmeans будет выполнять нормализацию (egnormalize = x / || x ||), а не стандартизацию (например, standardize = (x - значит) / сд)
Из документации k-means приведен обзор варианта стандартизации:
стандартизировать: включите эту опцию, чтобы стандартизировать числовые столбцы, чтобы иметь среднее значение от нуля и дисперсию единицы. Стандартизация настоятельно рекомендуется; Если вы не используете стандартизацию, результаты могут включать компоненты, в которых преобладают переменные, которые, как представляется, имеют большие отклонения относительно других атрибутов в зависимости от масштаба, а не истинного вклада. Эта опция включена по умолчанию.
Примечание. Если включена стандартизация, каждый столбец числовых данных центрируется и масштабируется таким образом, что его среднее значение равно нулю, а стандартное отклонение равно единице перед использованием алгоритма. В конце процесса кластер центрируется как в стандартизированной шкале (centers_std), так и в стандартизированной шкале (центры). Чтобы отменить стандартизацию центров, алгоритм умножается на исходное стандартное отклонение соответствующего столбца и добавляет исходное среднее значение. Включение стандартизации математически эквивалентно использованию h2o.scale в R с center = TRUE и scale = TRUE в числовых столбцах. Поэтому не будет заметной разницы, если стандартизация включена или нет для K-средних, так как H2O вычисляет нестандартные центроиды.