kmodes VS горячее кодирование + kmeans для категориальных данных? - PullRequest
0 голосов
/ 16 мая 2019

Я изучаю возможность кластеризации некоторых категориальных данных с помощью Python. В настоящее время у меня есть 8 функций с примерно 3-10 уровнями.

Как я понял, в этой среде можно использовать как кодирование с одним вызовом с использованием kmeans, так и kmodes , при этом kmeans может оказаться неидеальным с огромными комбинациями функций / уровней из-за проклятия проблем размерности.

Это правильно?

В данный момент я бы следовал маршруту kmeans, потому что это дало бы мне гибкость для добавления некоторых числовых функций, и вычисление статистики силуэтов и оценка оптимального числа кластеров, кажется, намного проще.

Имеет ли это смысл? Есть ли у вас какие-либо предложения относительно ситуаций, в которых один подход должен быть предпочтительнее другого?

Спасибо

1 Ответ

1 голос
/ 18 мая 2019

Существуют также варианты, в которых используется подход k-mode для категориальных атрибутов и среднее значение для непрерывных атрибутов.

K-mode имеет большое преимущество перед горячими + k-средних: он интерпретируемый,Каждый кластер имеет одно явное категориальное значение для прототипа.С помощью k-средних из-за цели SSQ переменные с одной горячей переменной имеют наименьшие ошибки, если они находятся между значениями.Это не желательно.

...