Я пытаюсь выяснить, как получить полезную информацию из набора данных с помощью кластеризации. Я читал, что это может помочь обнаружить основные шаблоны данных, но я не уверен, как.
Мой набор данных - это перепись 90-х годов, представляющая собой смесь числовых и категориальных данных. Столбцы - это возраст, семейное положение, род занятий, раса, пол, количество рабочих часов в неделю, страна, заработанная более 50 тыс. В год (да или нет).
Сейчас я использую k-средства для кластеризации данные, но так как данные настолько категоричны, я попытаюсь найти библиотеку, которая поддерживает k-режимы или k-прототипы. В настоящее время я использую sklearn в python.
. Я использую метод "elbow", чтобы выбрать количество кластеров, но я все еще не уверен, как анализировать данные, чтобы найти какую-либо базовую структуру .
Я не ищу какой-либо конкретной c структуры, я просто хочу посмотреть, есть ли какая-нибудь, которую я могу получить из набора данных. Например, я предполагаю, что есть некоторая корреляция между некоторыми из столбцов, и если люди получают более 50 тыс. В год.
Какие другие алгоритмы кластеризации я должен рассмотреть, чтобы использовать? Как я могу найти большое количество кластеров и проанализировать данные, чтобы найти какие-либо базовые структуры?
Кроме того, я знаю, что есть другие алгоритмы ML, кроме кластеризации, которые могли бы работать лучше, но я хочу увидеть сколько я могу узнать с кластеризацией. Любые советы или помощь приветствуются.
РЕДАКТИРОВАТЬ: Я сосредоточился только на сексе, образовании и более 50 000, и я смог получить действительно solid кластеризацию вокруг образования.