Для моей диссертации я должен сгруппировать набор данных оптовых клиентов из хранилища UCI (440 наблюдений и 8 переменных) с kmeans и mclust в R. К сожалению, у меня нет опыта в R. Прежде всего я удалил переменные Channel и Region , С помощью метода локтя я понял, что 5 центров должны быть в порядке.
k.max <- 15
wss <- sapply(1:k.max,
function(k){kmeans(data, k, nstart=50,iter.max = 15)$tot.withinss})
plot(1:k.max, wss,
type="b", pch = 19, frame = FALSE,
xlab="Anzahl Cluster",
ylab="Summe der Quadrate")
Итак, у меня есть несколько вопросов: следует ли мне масштабировать данные, использовать ящики с диаграммами для выявления выбросов или, может быть, и то, и другое? Как можно удалить выбросы из моего набора данных? Какой лучший способ визуализировать результаты?