Кластеризация в смешанных типах данных - PullRequest
0 голосов
/ 02 июля 2019

Почему мы не можем использовать Eculidean Distance для кластеризации категориальных переменных и почему мы используем Gower Distance для кластеризации категориальных переменных. Я просто ищу простую логику и разницу в работе между ними для кластеризации категориальных переменных.

Я пытался найти то же самое в поиске Google, но не смог найти что-то конкретное и логичное о том же.

1 Ответ

1 голос
/ 02 июля 2019

Евклидово расстояние может использоваться, если ваши категориальные данные имеют порядковый номер по своей природе, где, если вы разумно кодируете данные, вы можете найти евклидово расстояние, которое на самом деле имеет некоторый смысл. Например, предположим, что вы имеете дело с результатами опроса, проведенного по шкале Лайкерта, и ваши уровни очень хорошие, хорошие, нейтральные, плохие и очень плохие, и если вы решите закодировать их как 5,4,3,2 и 1 соответственно и вычислите расстояние между любой парой из них, они действительно имеют смысл (расстояние между плохим и очень хорошим равно 3, что имеет смысл).

Но с другой стороны, если ваши переменные являются категориальными, но номинальными в природе, где нет присущего упорядочения, вычисление расстояний не имеет смысла. Например, предположим, что ваша функция имеет цвет, и они принимают значения Red, Blue, Green и Pink. И вы кодируете их как 4,3,2 и 1 соответственно. Теперь, даже если вы найдете расстояние между зеленым и красным и сообщите, что оно равно 2, это на самом деле ничего не значит, так как вы не можете сделать утверждение, что красный отличается от зеленого на 2 единицы.

В случае номинальных переменных вы можете использовать Расстояние Хэмминга или Расстояние Gower или Расстояние Gower в R , если у вас есть смешанные данные.

Надеюсь, это поможет!

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...