Question

У меня есть набор данных с 20 переменными v1 - v20.Теперь я хотел бы использовать cor (...) для вычисления корреляции между v2 и v10 до v15 и v3 и v10 до v15.Какой лучший способ сделать это?Должен ли я сделать это для каждой пары переменных, используя

cor(v2, v10)
cor(v2, v11)
cor(v2, v12)
and so on?

Вот фактический набор данных:

   > dput(dataset)
structure(list(Number = 1:15, Question.1.1 = c(3L, 4L, 5L, 5L, 
4L, 5L, 5L, 4L, 4L, 5L, 5L, 5L, 5L, 5L, 5L), Question.1.2 = c(1L, 
2L, 1L, 1L, 4L, 1L, 1L, 2L, 3L, 1L, 1L, 1L, 1L, 1L, 1L), Question.2.1 = c(5L, 
3L, 5L, 5L, 5L, 5L, 5L, 5L, 5L, 5L, 5L, 5L, 5L, 5L, 5L), Question.2.2 = c(2L, 
1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L), Question.3.1 = c(2L, 
NA, 4L, 5L, 4L, 3L, 5L, 3L, 5L, 5L, 5L, 5L, 4L, 4L, 4L), Question.3.2 = c(2L, 
NA, 1L, 1L, 2L, 2L, 1L, 4L, 3L, 1L, 1L, 1L, 2L, 2L, 1L), Question.4.1 = c(3L, 
2L, 5L, 2L, 5L, 5L, 5L, 3L, 5L, 5L, 5L, 5L, 4L, 5L, 2L), Question.4.2 = c(2L, 
2L, 1L, 2L, 2L, 1L, 2L, 3L, 3L, 1L, 1L, 1L, 1L, 1L, 4L), Question.5.1 = c(5L, 
3L, 5L, 3L, 4L, 4L, 5L, 3L, 5L, 5L, 5L, 5L, 5L, 4L, 4L), Question.5.2 = c(2L, 
2L, 1L, 1L, 3L, 2L, 1L, 3L, 4L, 1L, 1L, 1L, 1L, 1L, 1L), Question.6.1 = c(5L, 
2L, 2L, 2L, 3L, 2L, 3L, 1L, 3L, 3L, 5L, 4L, 3L, 3L, 1L), Question.6.2 = c(2L, 
3L, 2L, 1L, 2L, 3L, 3L, 3L, 3L, 2L, 1L, 1L, 2L, 2L, 1L), Question.7.1 = c(5L, 
2L, 5L, 5L, 5L, 3L, 5L, 5L, 2L, 4L, 5L, 5L, 5L, 4L, 5L), Question.7.2 = c(1L, 
4L, 1L, 1L, 2L, 2L, 1L, 1L, 3L, 1L, 1L, 1L, 1L, 1L, 1L), Question.8.1 = c(4L, 
5L, 5L, 5L, 5L, 5L, 5L, 5L, 5L, 5L, 5L, 5L, 5L, 5L, 5L), Question.8.2 = c(1L, 
1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L), Question.9.1 = c(5L, 
3L, 5L, 4L, 4L, 5L, 5L, 5L, 4L, 5L, 5L, 5L, 5L, 4L, 3L), Question.9.2 = c(1L, 
1L, 1L, 2L, 2L, 1L, 2L, 1L, 4L, 2L, 1L, 2L, 2L, 1L, 2L), AQ.1 = c(5L, 
5L, 5L, 1L, 3L, 5L, 5L, 5L, 5L, 2L, 2L, 2L, 5L, 5L, 3L), AQ.2 = c(2L, 
5L, 2L, 1L, 2L, 5L, 2L, 1L, 5L, 1L, 1L, 4L, 2L, 3L, 3L), Task.1 = c(5L, 
2L, 5L, 1L, 4L, 5L, 5L, 4L, 4L, 5L, 5L, 4L, 5L, 5L, 5L), Task.2 = c(4L, 
3L, 5L, 4L, 5L, 5L, 5L, 5L, 5L, 5L, 5L, 5L, 5L, 5L, 5L), Task.3 = c(4L, 
3L, 4L, 1L, 3L, 5L, 4L, 5L, 5L, 5L, 5L, 5L, 4L, 4L, 4L), Task.4 = c(5L, 
5L, 5L, 5L, 5L, 5L, 5L, 5L, 5L, 5L, 5L, 5L, 5L, 5L, 5L), Task.5 = c(5L, 
4L, 5L, 4L, 4L, 5L, 4L, 5L, 4L, 5L, 5L, 5L, 5L, 5L, 4L), GQ.1 = c(4L, 
2L, 2L, 5L, 4L, 4L, 5L, 4L, 5L, 5L, 5L, 4L, 4L, 5L, 4L), GQ.2 = c(4L, 
4L, 4L, 5L, 5L, 4L, 4L, 3L, 3L, 3L, 5L, 5L, 5L, 4L, 3L), GQ.3 = c(5L, 
3L, 2L, 5L, 3L, 5L, 5L, 5L, 4L, 5L, 5L, 5L, 4L, 4L, 4L), GQ.4 = c(5L, 
2L, 1L, 4L, 4L, 4L, 4L, 3L, 3L, 3L, 5L, 5L, 4L, 4L, 1L), GQ.5 = c(4L, 
3L, 4L, 5L, 5L, 4L, 4L, 4L, 4L, 5L, 5L, 5L, 5L, 4L, 3L), GQ.6 = c(2L, 
2L, 1L, 1L, 2L, 1L, 4L, 1L, 4L, 5L, 5L, 1L, 5L, 1L, 5L), GQ.7 = c(4L, 
5L, 5L, 5L, 4L, 2L, 3L, 5L, 3L, 5L, 5L, 2L, 5L, 3L, 2L), GQ.8 = c(2L, 
4L, 3L, 2L, 3L, 3L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 1L, 2L), GQ.9 = c(3L, 
5L, 2L, 3L, 4L, 4L, 5L, 3L, 4L, 4L, 3L, 3L, 4L, 2L, 2L), GQ.10 = c(3L, 
4L, 1L, 2L, 3L, 4L, 5L, 5L, 5L, 5L, 4L, 4L, 5L, 5L, 2L), Feature.1 = c(4L, 
4L, 2L, 3L, 4L, 4L, 5L, 5L, 4L, 5L, 5L, 4L, 5L, 3L, 4L), Feature.2 = c(4L, 
4L, 2L, 1L, 5L, 4L, 5L, 5L, 5L, 4L, 4L, 3L, 5L, 3L, 2L), Feature.3 = c(3L, 
2L, 1L, 2L, 5L, 5L, 2L, 4L, 2L, 4L, 4L, 5L, 2L, 4L, 2L), Feature.4 = c(3L, 
3L, 3L, 4L, 3L, 4L, 5L, 5L, 4L, 4L, 4L, 3L, 4L, 3L, 3L), Feature.5 = c(2L, 
2L, 3L, 3L, 4L, 3L, 4L, 4L, 2L, 4L, 3L, 4L, 5L, 3L, 1L), Feature.6 = c(5L, 
5L, 1L, 1L, 5L, 5L, 5L, 4L, 4L, 5L, 5L, 5L, 5L, 4L, 4L), Feature.7 = c(5L, 
3L, 2L, 5L, 4L, 5L, 3L, 5L, 4L, 5L, 5L, 5L, 5L, 4L, 4L)), .Names = c("Number", 
"Question.1.1", "Question.1.2", "Question.2.1", "Question.2.2", 
"Question.3.1", "Question.3.2", "Question.4.1", "Question.4.2", 
"Question.5.1", "Question.5.2", "Question.6.1", "Question.6.2", 
"Question.7.1", "Question.7.2", "Question.8.1", "Question.8.2", 
"Question.9.1", "Question.9.2", "AQ.1", "AQ.2", "Task.1", "Task.2", 
"Task.3", "Task.4", "Task.5", "GQ.1", "GQ.2", "GQ.3", "GQ.4", 
"GQ.5", "GQ.6", "GQ.7", "GQ.8", "GQ.9", "GQ.10", "Feature.1", 
"Feature.2", "Feature.3", "Feature.4", "Feature.5", "Feature.6", 
"Feature.7"), class = "data.frame", row.names = c(NA, -15L))

nico · Answer 1 · 27 марта 2011

Возможно, я неправильно понял проблему ... но почему бы вам просто не запустить cor для фрейма данных?

Например:

data <- data.frame(q1=sample(1:5, 15, rep=1), 
          q2=sample(1:5, 15, rep=1), 
          q3=sample(1:5, 15, rep=1), 
          q4=sample(1:5, 15, rep=1), 
          q5=sample(1:5, 15, rep=1), 
          q6=sample(1:5, 15, rep=1), 
          q7=sample(1:5, 15, rep=1), 
          q8=sample(1:5, 15, rep=1), 
          q9=sample(1:5, 15, rep=1), 
          q10=sample(1:5, 15, rep=1))

print(cor(data))

Вы можете даже

image(cor(data), x=1:10, y=1:10, zlim=c(-1,1))

Если вам просто нужны определенные значения корреляций, просто поместите результат corr в переменную и извлеките нужные вам результаты.

Например, нам нужна корреляция столбца 2со столбцами 5-10 мы будем:

corrs <- cor(data)
print(corrs[2, 5:10]) # or corrs[5:10, 2], the correlation matrix is symmetric

N Brouwer · Answer 2 · 05 декабря 2011

Вопрос, кажется, мотивирован информационной перегрузкой, возникающей в результате запуска corr на всем фрейме данных.Я не очень много его использовал, но пакет plyr от Hadley Wickham из ggplot известности, кажется, предлагает несколько элегантных решений для поднабора и управления выводом.

aL3xa · Answer 3 · 27 марта 2011

Используйте команду subset:

dtf <- subset(mtcars, select = c(mpg, hp, wt))
cor(dtf)
         mpg         hp         wt
mpg  1.0000000 -0.7761684 -0.8676594
hp  -0.7761684  1.0000000  0.6587479
wt  -0.8676594  0.6587479  1.0000000

Или используйте пакет psych и функцию corr.test:

library(psych)
corr.test(dtf)
Call:corr.test(x = dtf)
Correlation matrix 
      mpg    hp    wt
mpg  1.00 -0.78 -0.87
hp  -0.78  1.00  0.66
wt  -0.87  0.66  1.00
Sample Size 
    mpg hp wt
mpg  32 32 32
hp   32 32 32
wt   32 32 32
Probability value 
    mpg hp wt
mpg   0  0  0
hp    0  0  0
wt    0  0  0

Vincent · Answer 4 · 27 марта 2011

Подмножество набора данных явным образом и запуск команды корреляции для этого набора данных. Предполагая, что ваши переменные упорядочены правильно, попробуйте что-то вроде этого:

cor(dat[,c(2, 10:15)][,1]
cor(dat[,c(3, 10:15)][,1]

Если они не упорядочены, вам нужно просто упорядочить их или назвать переменные в кавычках. Например:

cor(dat[,c('v3', 'v10', 'v11', 'v12', 'v13', 'v14', 'v15')][,1]

R: Рассчитать корреляцию для подмножества моего набора данных?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 4 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

R: Рассчитать корреляцию для подмножества моего набора данных?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 4 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы