У меня 77 переменных и 27 000 наблюдений.Моя цель - найти из этого значимые кластеры.Мне сложно интерпретировать кластеры !!
До сих пор я пытался выполнить PCA (используя proc Princomp), что дало мне представление об уменьшенной размерности.Затем я использовал соответствующие ПК в операциях Fastclus - после нескольких итераций я нашел вывод, который произвел желаемое количество значимых кластеров.
Затем я установил исходные входные переменные с созданными кластерами, я сделал это какЯ подумал, что это позволит мне разобраться в кластерах с точки зрения исходных переменных, даже если компьютеры использовались для создания кластеров.
Моя проблема заключается в том, как мне профилировать кластеры, чтобы понять их значимость для бизнеса (интерпретация) - я пытался использовать Proc Tabulate, но это не имело смысла, потому что у меня 77 исходных переменных для сравнения с моим кластером.
Каким должен быть следующий правильный шаг - я должен попытаться проверить мультиколлинеарность иудалить как можно больше переменных или есть более простой способ ??Буду признателен за любые отзывы или советы по решению этой проблемы.
Заранее спасибо