Я хочу удалить точки данных выбросов в кластерах после того, как k означает кластеризацию и использую этот способ для R: -
1.) Постройте график: -
plot(sort(df[[1]]$var))
plot(sort(df[[2]]$var))
2.) Из графика см. Посторонние (в моем случае крайние) точки данных.
rownames(df[[1]])<-1:nrow(df[[1]])
rownames(df[[2]])<-1:nrow(df[[2]])
3.) Go до view(df[[1]])
, view(df[[2]])
сортировка var
в порядке убывания и запишите номера строк, которые являются точками данных выбросов, и удалите эти строки из df[[1]]
, df[[2]]
df[[1]]<-df[[1]][-c(200,320,216),]
df[[2]]<-df[[2]][-c(7000,1200,2320),]
df - это список с 3 элементами, df[[1]]
доступ к первому элемент / кластер
Есть ли другой простой и эффективный способ добиться того же?