Как выбрать метод кластеризации для категориальных данных в R? - PullRequest
0 голосов
/ 10 октября 2019

Я пытаюсь выполнить кластерный анализ смешанных данных (демографические переменные + шкала Лайкерта от 1 до 10 предпочтений). Я пытаюсь применить иерархическую кластеризацию с помощью функции daisy () для смешанных данных, но когда я вычисляю добротность - копенетическую корреляцию, оценка составляет 0,60, что не очень высоко.

Как я могу улучшитьсовершенство в форме? Подходит ли иерархический метод для этих данных? Должны ли данные шкалы Лайкерта рассматриваться как факторы или как числа? Кроме того, при вызове - hclust (seg.dist, method = "complete") подходит ли этот метод для моих данных?

Я также пробовал анализ скрытого класса, но результаты неинтересны (если только я этим не занимался)неправильно)

seg.dist <- daisy(EUR_data)
as.matrix(seg.dist)
seg.hc <- hclust(seg.dist, method="complete")

для расчета копенетической корреляции:

cor(cophenetic(seg.hc), seg.dist)

1 Ответ

0 голосов
/ 12 октября 2019

Улучшение предварительной обработки ваших данных.

Некоторые атрибуты будут важнее других.

Атрибуты Лайкерта также часто не могут рассматриваться как интервальная шкала, поскольку люди с меньшей вероятностью дают 7чем 6 или 8 по культурным причинам: 7 - неудача.

Кластеризация будет столь же хороша, как и ваше расстояние, так что улучшите свои предварительные вычисления и вычисления расстояния!

...