Структурная функция в R показывает, что USArrests имеет только 4 переменные.Тем не менее, есть 5. Имена состояний в первом столбце, однако это не помечено.
Я изо всех сил пытаюсь понять интуицию, стоящую за этим, и как это работает.Я сделал алгоритм кластеризации K-средних с данными, и кажется, что первый столбец (имена состояний) выступает в качестве меток в анализе.Без использования категорических данных.
это учебник, который я использовал.https://uc -r.github.io / kmeans_clustering
Ниже приведен код, который объясняет меня в более ясной форме.
str(USArrests)
'data.frame': 50 obs. of 4 variables:
$ Murder : num 13.2 10 8.1 8.8 9 7.9 3.3 5.9 15.4 17.4 ...
$ Assault : int 236 263 294 190 276 204 110 238 335 211 ...
$ UrbanPop: int 58 48 80 50 91 78 77 72 80 60 ...
$ Rape : num 21.2 44.5 31 19.5 40.6 38.7 11.1 15.8 31.9 25.8 ...
head(USArrests)
Murder Assault UrbanPop Rape
Alabama 13.2 236 58 21.2
Alaska 10.0 263 48 44.5
Arizona 8.1 294 80 31.0
Arkansas 8.8 190 50 19.5
California 9.0 276 91 40.6
Colorado 7.9 204 78 38.7
Как это выглядит как «метка» в кластере средств K
library(tidyverse) # data manipulation
library(cluster) # clustering algorithms
Очистка данных
df <- USArrests
df <- na.omit(df)
Масштабирование
(df <- scale(df))
Вычисление К-средних Кластеризация
k2 <- kmeans(df, centers = 2, nstart = 25)
Пример вывода
Clustering vector:
Alabama Alaska Arizona Arkansas California
2 2 2 1 2
Если есть только четыре переменные, откуда R или алгоритм кластеризации знаютсвязать кластер с именем состояния, которое технически не является столбцом?