К-значит кластеризация по номинальным данным? - PullRequest
0 голосов
/ 22 марта 2019

Я выполняю кластеризацию для некоторых точек данных, которые имеют различную степень, например, низкий, средний и высокий. Целесообразно ли преобразовывать их в числа типа low-1, med-2, hig-3 и применять k-средства напрямую, или я должен использовать любой другой метод?

Я выступал так, но это не всегда дает хорошие результаты. Иногда это дает очень хорошие результаты, но иногда нет.

Ответы [ 2 ]

0 голосов
/ 22 марта 2019

K-средних не имеет большого смысла в таких данных.

Это рассчитано для непрерывных переменных.В тех случаях, когда ввод имени означает имеет смысл и сводит к минимуму ошибку наименьших квадратов .

Для категориальных данных используйте k-medoids или k-mode вместо этого!

Кроме того, вам необходимо , чтобы тщательно учитывать важность переменных.

Обратите внимание, что для категориальных / дискретных данных очень часто возникает проблема, заключающаяся в том, что алгоритмы оптимизациизастрять в локальной оптиме: потому что нет «непрерывного» пути для улучшения результатов.Из-за этого результаты иногда хорошие, а иногда плохие.Затем вы можете увеличить количество перезапусков, но с увеличением сложности ваш шанс на удачное угадывание уменьшается ...

0 голосов
/ 22 марта 2019

Хорошо преобразовывать непрерывные данные в дискретные можно, если они обрабатываются как дискретные, а не непрерывные. Теперь k-means работает в основном только для непрерывных данных. Поэтому я думаю, что лучшим вариантом будут алгоритмы типа k-prototypes или k-modes. Где k-prototype будет работать как для непрерывных, так и для категориальных данных, а k-режим будет работать только для категориальных данных.

...