H2O (с открытым исходным кодом) для K-среднего кластеризации - PullRequest
0 голосов
/ 08 января 2019

Я использую H2O (особенно поток H2O) для кластеризации K-средних. Я выбрал «стандартизировать» флажок, который гарантирует «Он стандартизирует столбцы перед вычислением расстояний». Он тренировался хорошо, и я исследовал результаты. Он отображает «inside_cluster_sum_of_squares» в результате для обзора. Мой вопрос "в пределах_кластера_сум_фо-квадратов" расстояние ДО или ПОСЛЕ стандартизации? Он выглядит отображающим расстояние после стандартизации, но расстояние, которое я вижу, велико и кажется до стандартизации (хотя я не уверен). Любая идея ? Спасибо.

1 Ответ

0 голосов
/ 10 января 2019

Когда вы выбираете стандартизировать для K-средних в потоке, он стандартизирует столбцы перед вычислением расстояний (настройка показана ниже).

enter image description here

Таким образом, чтобы ответить на ваш вопрос, "inside_cluster_sum_of_squares" - это вычисление расстояния, которое вычисляется после выполнения стандартизации.

Одной из причин, по которой ваше значение показателя может показаться слишком большим, может быть, если вы ожидаете, что опция стандартизации H2O-3 Kmeans будет выполнять нормализацию (egnormalize = x / || x ||), а не стандартизацию (например, standardize = (x - значит) / сд)

Из документации k-means приведен обзор варианта стандартизации:

стандартизировать: включите эту опцию, чтобы стандартизировать числовые столбцы, чтобы иметь среднее значение от нуля и дисперсию единицы. Стандартизация настоятельно рекомендуется; Если вы не используете стандартизацию, результаты могут включать компоненты, в которых преобладают переменные, которые, как представляется, имеют большие отклонения относительно других атрибутов в зависимости от масштаба, а не истинного вклада. Эта опция включена по умолчанию.

Примечание. Если включена стандартизация, каждый столбец числовых данных центрируется и масштабируется таким образом, что его среднее значение равно нулю, а стандартное отклонение равно единице перед использованием алгоритма. В конце процесса кластер центрируется как в стандартизированной шкале (centers_std), так и в стандартизированной шкале (центры). Чтобы отменить стандартизацию центров, алгоритм умножается на исходное стандартное отклонение соответствующего столбца и добавляет исходное среднее значение. Включение стандартизации математически эквивалентно использованию h2o.scale в R с center = TRUE и scale = TRUE в числовых столбцах. Поэтому не будет заметной разницы, если стандартизация включена или нет для K-средних, так как H2O вычисляет нестандартные центроиды.

...