Я только начал работать с пакетом kml
для выполнения продольной кластеризации k-средних в R
.
По умолчанию функция kml
использует критерий Calinski Harabatz Sorted
, чтобы выбрать «лучшее» кластеризация. Таким образом, получая доступ к «лучшей» кластеризации, вы всегда будете видеть критерий Calinski Harabatz Sorted
.
Как можно выбрать другой критерий качества ?
Минимальный пример:
library(kml)
# some data
cld <- generateArtificialLongData(25)
# perform clustering
kml(cold)
# choose the 'best' clustering:
choice(cld)
Этот график выглядит примерно так:
Итак, мы видим фактические данные, кластеризацию и с левой стороны критерий качества. Теперь для «Calinski Harabatz Unsorted» «оптимальное» число - четыре кластера. Но что, если мы выберем другой критерий качества?
Чтобы построить другое решение с различным количеством кластеров, я могу, например, сделать:
plot(cld, 3, toPlot = 'both')
Итак, здесь мы видим кластеризацию с тремя кластерами и тем же критерием сверху.
Как можем ли мы построить критерий качества для другой меры, например, Рэй и Тур ie?