Подготовить дату для кластеризации в R - PullRequest
0 голосов
/ 16 сентября 2018

Для моей диссертации я должен сгруппировать набор данных оптовых клиентов из хранилища UCI (440 наблюдений и 8 переменных) с kmeans и mclust в R. К сожалению, у меня нет опыта в R. Прежде всего я удалил переменные Channel и Region , С помощью метода локтя я понял, что 5 центров должны быть в порядке.

k.max <- 15
wss <- sapply(1:k.max, 
function(k){kmeans(data, k, nstart=50,iter.max = 15)$tot.withinss})
plot(1:k.max, wss,
type="b", pch = 19, frame = FALSE, 
xlab="Anzahl  Cluster",
ylab="Summe der Quadrate")

Итак, у меня есть несколько вопросов: следует ли мне масштабировать данные, использовать ящики с диаграммами для выявления выбросов или, может быть, и то, и другое? Как можно удалить выбросы из моего набора данных? Какой лучший способ визуализировать результаты?

...