У меня есть некоторый набор данных, в котором некоторые наблюдения сильно коррелированы. Я делаю кластерный анализ на матрице расстояний, полученных из корреляционной матрицы. Некоторые элементы в этих наборах данных являются избыточными, и я хочу выбрать некоторые представители элементов с минимальной взаимной корреляцией. Я думаю, что метод грубой силы состоит в том, чтобы просто выбрать один элемент из каждого кластера. Но я хочу знать, существуют ли более формальные методы для такого уменьшения размерности в R?
Например, мы выполняем кластеризацию на наборе данных mtcars следующим образом:
> m=cor(t(mtcars))
> hc=hclust(as.dist(m),"ave")
> plot(hc)
Мы получаем следующую дендрограмму:
Как извлечь из приведенных выше дендрограмм необходимые элементы? Это значит элементы, которые минимально взаимно коррелированы?