Работа с неконтролируемыми данными с большими категориальными и непрерывными функциями - PullRequest
0 голосов
/ 26 января 2020

У меня есть проблема, когда я имею дело с набором данных без целевой переменной. Теперь я знаю, что мне нужно позаботиться об этой проблеме как о неконтролируемой и использовать кластеризацию поверх этого. Но я хочу сначала понять следующее, прежде чем что-либо делать:

Какой будет лучший метод (алгоритмы) для анализа таких данных, когда у меня есть большое количество категориальных признаков (30) наряду с аналогичным количеством непрерывных функций (28), но общий набор данных очень мал, всего 500 наблюдений.

Цель состоит в том, чтобы собрать людей в разные группы, которые подойдут для моей постановки задачи. Суть проблемы заключается в определении лучших людей из всего набора данных, которые подойдут для конкретной роли на основе множества различных категориальных и числовых функций avaialbele

Какие шаги мне следует предпринять? Должен ли я делать EDA, кодирование, масштабирование и т. Д. c? Мне нужно сделать это в Python

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...