Как запустить кластеризацию с категориальными переменными - PullRequest
0 голосов
/ 19 сентября 2018

Я пытаюсь запустить кластеризацию только с категориальными переменными.Поскольку Kmeans применяется только для числовых данных, есть ли какие-либо методы кластеризации?

У меня есть 30 переменных, таких как почтовый индекс, возрастная группа, хобби, предпочтительный канал, семейное положение, кредитный риск (низкий, средний, высокий),статус образования и т. д. Если я преобразую каждую из этих переменных в фиктивные и запуском kmeans, у меня будет 90 столбцов (30 * 3 - при условии, что каждая переменная имеет 4 фактора).Это правильно?

Ответы [ 2 ]

0 голосов
/ 20 сентября 2018

В качестве альтернативы, вы можете использовать смесь многочленных распределений.

Количество кластеров может быть выбрано с помощью информационных критериев (например, BIC, ICL ...).

Если вы можете использоватьR, затем используйте пакет R VarSelLCM, который реализует этот подход.

0 голосов
/ 19 сентября 2018

Показатели сходства на основе перекрытия ( k-mode ), Показатели сходства на основе контекста и многие другие, перечисленные в документе Кластеризация категориальных данных будет хорошим началом.Поскольку у вас уже есть опыт и знания о k-средних, начать работу с k-режимами будет просто.

...