Question

Я пытаюсь кластеризовать набор данных, который содержит две переменные:

Одна категориальная переменная, которая имеет 800 различных уровней идентификатора и одна непрерывная переменная, которая измеряет производительность.

Я знаю, что K-means не будет работать из-за категориального.

Должен ли я использовать K-режимы?

Любое предложение может оказать большую помощь.

Anony-Mousse · Answer 1 · 21 сентября 2019

Не выбирайте метод по типам данных.

Выберите метод из-за проблемы, которую он решает, или он может решить проблему, отличную от вашей.

Если выесть столбец идентификатора, вы почти всегда не должны его использовать.Таким образом, у вас есть только одна непрерывная переменная.Может оказаться более целесообразным использовать оценку плотности ядра, а не кластеризацию.Вы также можете использовать области с низкой плотностью для разделения данных на основе KDE.

Какой метод анализа использовать для смешанных типов данных

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Какой метод анализа использовать для смешанных типов данных

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы