Какой метод анализа использовать для смешанных типов данных - PullRequest
0 голосов
/ 19 сентября 2019

Я пытаюсь кластеризовать набор данных, который содержит две переменные:

Одна категориальная переменная, которая имеет 800 различных уровней идентификатора и одна непрерывная переменная, которая измеряет производительность.

Я знаю, что K-means не будет работать из-за категориального.

Должен ли я использовать K-режимы?

Любое предложение может оказать большую помощь.

1 Ответ

0 голосов
/ 21 сентября 2019

Не выбирайте метод по типам данных.

Выберите метод из-за проблемы, которую он решает, или он может решить проблему, отличную от вашей.

Если выесть столбец идентификатора, вы почти всегда не должны его использовать.Таким образом, у вас есть только одна непрерывная переменная.Может оказаться более целесообразным использовать оценку плотности ядра, а не кластеризацию.Вы также можете использовать области с низкой плотностью для разделения данных на основе KDE.

...