Question

Я пытаюсь запустить кластеризацию только с категориальными переменными.Поскольку Kmeans применяется только для числовых данных, есть ли какие-либо методы кластеризации?

У меня есть 30 переменных, таких как почтовый индекс, возрастная группа, хобби, предпочтительный канал, семейное положение, кредитный риск (низкий, средний, высокий),статус образования и т. д. Если я преобразую каждую из этих переменных в фиктивные и запуском kmeans, у меня будет 90 столбцов (30 * 3 - при условии, что каждая переменная имеет 4 фактора).Это правильно?

user200668 · Answer 1 · 20 сентября 2018

В качестве альтернативы, вы можете использовать смесь многочленных распределений.

Количество кластеров может быть выбрано с помощью информационных критериев (например, BIC, ICL ...).

Если вы можете использоватьR, затем используйте пакет R VarSelLCM, который реализует этот подход.

n1tk · Answer 2 · 19 сентября 2018

Показатели сходства на основе перекрытия ( k-mode ), Показатели сходства на основе контекста и многие другие, перечисленные в документе Кластеризация категориальных данных будет хорошим началом.Поскольку у вас уже есть опыт и знания о k-средних, начать работу с k-режимами будет просто.

Как запустить кластеризацию с категориальными переменными

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как запустить кластеризацию с категориальными переменными

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы