У меня есть проблема, когда я имею дело с набором данных без целевой переменной. Теперь я знаю, что мне нужно позаботиться об этой проблеме как о неконтролируемой и использовать кластеризацию поверх этого. Но я хочу сначала понять следующее, прежде чем что-либо делать:
Какой будет лучший метод (алгоритмы) для анализа таких данных, когда у меня есть большое количество категориальных признаков (30) наряду с аналогичным количеством непрерывных функций (28), но общий набор данных очень мал, всего 500 наблюдений.
Цель состоит в том, чтобы собрать людей в разные группы, которые подойдут для моей постановки задачи. Суть проблемы заключается в определении лучших людей из всего набора данных, которые подойдут для конкретной роли на основе множества различных категориальных и числовых функций avaialbele
Какие шаги мне следует предпринять? Должен ли я делать EDA, кодирование, масштабирование и т. Д. c? Мне нужно сделать это в Python