Как определить количество кластеров в иерархической кластеризации - PullRequest
0 голосов
/ 26 февраля 2020

Я нашел шаблон кластеризации ниже в иерархической кластеризации, используя минимальную дисперсию Уорда в R. Я эмпирически определил пять чисел кластеров, основываясь на том, имеют ли характеристики отдельных людей смысл. Даже если я использую высоту (обозначенную линией «Вырезать» на диаграмме), я все равно получаю те же 4 кластера, однако 5-й (синий) кластер сокращается еще в двух кластерах.

enter image description here

Вопрос: Мой вопрос заключается в том, обязательно ли разрезать 5-й кластер на заданную c высоту, даже если это не имеет смысла согласно знаниям, основанным на исследованиях? Или я могу эмпирически решить сохранить 5 кластеров? вносит ли это какое-либо смещение в анализ?

1 Ответ

1 голос
/ 26 февраля 2020

Кластеризация в определенной степени субъективна (даже в большей степени, чем контролируемое обучение), поскольку никто не знает точного ответа о том, сколько существует кластеров или действительно ли они достаточно разные, чтобы их можно было разделить на разные классы. Если вы считаете, что 5-й класс не имеет смысла, основываясь на знании предметной области, вы можете не разбивать его на классы. Просто убедитесь, что вы записали это четко, чтобы люди знали, что вы сделали и почему.

...