Кластеризация высокомерных категориальных данных для EDA? - PullRequest
0 голосов
/ 03 июня 2019

У меня есть большой набор данных (1900x200) данных обследования, все из которых являются категориальными.Мне было поручено выполнить сегментацию клиентов, чтобы получить общее представление о наших клиентах, но я не совсем уверен, как к этому подойти.Я провел некоторое исследование и обнаружил, что кластеризация в K-режиме, вероятно, будет уместна, но как мне извлечь из этого какое-либо значение?Очевидно, что я не могу нарисовать такие большие размеры на графике и посмотреть, значимы ли кластеры.И я не могу использовать сокращение размерности как PCA, поскольку я потерял бы способность объяснения.

Почти все примеры кластеризации, которые я видел в Интернете, относятся к 2 или 3-мерным данным, что просто.Каков наилучший способ действий для данных с более чем 3 измерениями?Любая помощь будет принята с благодарностью!Спасибо!

...