Выберите переменные для корреляционной матрицы - PullRequest
1 голос
/ 21 апреля 2019

Я начал использовать R в последнее время и хочу получить матрицу корреляции для определенного набора переменных.Мой набор данных состоит из более чем 150 переменных, но я использую только некоторые из них.Как я могу выбрать, какие из них производить?Заранее спасибо!

Ответы [ 2 ]

1 голос
/ 21 апреля 2019

Это вычисляет корреляцию 2-й, 3-й и 4-й переменных встроенного фрейма данных anscombe:

cor(anscombe[2:4])
##      x2   x3   x4
## x2  1.0  1.0 -0.5
## x3  1.0  1.0 -0.5
## x4 -0.5 -0.5  1.0

Так же (при условии, что они имеют указанные имена):

cor(anscombe[c("x2", "x3", "x4")])
0 голосов
/ 21 апреля 2019

Мне нравится использовать пакет dplyr.Например, если ваш набор данных называется dataset, выполните:

library(dplyr)

Затем представим, что ваш набор данных:

dataset <- data.frame(x = c(1, 2, 3), 
                      y = c(4, 5, 6), 
                      z = c(100, 50, 20))

Тогда:

dataset %>%
  as.data.frame() %>%                
  select(x, z) %>%                   # select the variables
  as.matrix() %>%                   
  cor()                              # the correlation matrix

#            x          z
# x  1.0000000 -0.9897433
# z -0.9897433  1.0000000

Этот метод является полным доказательством.Мы не знаем, является ли ваш набор данных dataframe или matrix , что повлияет на то, какой код вы используете.Этот код учитывает это.

...