K-средних не имеет большого смысла в таких данных.
Это рассчитано для непрерывных переменных.В тех случаях, когда ввод имени означает имеет смысл и сводит к минимуму ошибку наименьших квадратов .
Для категориальных данных используйте k-medoids или k-mode вместо этого!
Кроме того, вам необходимо , чтобы тщательно учитывать важность переменных.
Обратите внимание, что для категориальных / дискретных данных очень часто возникает проблема, заключающаяся в том, что алгоритмы оптимизациизастрять в локальной оптиме: потому что нет «непрерывного» пути для улучшения результатов.Из-за этого результаты иногда хорошие, а иногда плохие.Затем вы можете увеличить количество перезапусков, но с увеличением сложности ваш шанс на удачное угадывание уменьшается ...