Извлечение информации о наборе данных с кластеризацией - PullRequest
0 голосов
/ 19 марта 2020

Я пытаюсь выяснить, как получить полезную информацию из набора данных с помощью кластеризации. Я читал, что это может помочь обнаружить основные шаблоны данных, но я не уверен, как.

Мой набор данных - это перепись 90-х годов, представляющая собой смесь числовых и категориальных данных. Столбцы - это возраст, семейное положение, род занятий, раса, пол, количество рабочих часов в неделю, страна, заработанная более 50 тыс. В год (да или нет).

Сейчас я использую k-средства для кластеризации данные, но так как данные настолько категоричны, я попытаюсь найти библиотеку, которая поддерживает k-режимы или k-прототипы. В настоящее время я использую sklearn в python.

. Я использую метод "elbow", чтобы выбрать количество кластеров, но я все еще не уверен, как анализировать данные, чтобы найти какую-либо базовую структуру .

Я не ищу какой-либо конкретной c структуры, я просто хочу посмотреть, есть ли какая-нибудь, которую я могу получить из набора данных. Например, я предполагаю, что есть некоторая корреляция между некоторыми из столбцов, и если люди получают более 50 тыс. В год.

Какие другие алгоритмы кластеризации я должен рассмотреть, чтобы использовать? Как я могу найти большое количество кластеров и проанализировать данные, чтобы найти какие-либо базовые структуры?

Кроме того, я знаю, что есть другие алгоритмы ML, кроме кластеризации, которые могли бы работать лучше, но я хочу увидеть сколько я могу узнать с кластеризацией. Любые советы или помощь приветствуются.

РЕДАКТИРОВАТЬ: Я сосредоточился только на сексе, образовании и более 50 000, и я смог получить действительно solid кластеризацию вокруг образования.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...