поведение cor () в R различно для отдельных векторов и data.frame - PullRequest
5 голосов
/ 06 декабря 2011

Я пытаюсь получить коэффициент корреляции Пирсона для всех строк во фрейме данных относительно друг друга. есть значения, которые являются пустыми (NA), и это, кажется, представляет проблему, с которой я не сталкиваюсь при запуске cor () на 2 векторах с отсутствующими значениями Это правильный результат для 2 векторов:

x <- c(NA, 4.5, NA, 4, NA, 1)
y <- c(2.5, 3.5, 3, 3.5, 3, 2.5)
cor(x,y, use = "complete.obs")
[1] 0.9912407

и вот результат, когда они являются частью фрейма данных:

cor(t(critics1), use = "complete.obs")
   y  a  b  c  d  e  x
y  1 NA NA NA NA NA NA
a NA  1  1  1 -1  1 -1
b NA  1  1  1 -1  1 -1
c NA  1  1  1 -1  1 -1
d NA -1 -1 -1  1 -1  1
e NA  1  1  1 -1  1 -1
x NA -1 -1 -1  1 -1  1
Warning message:
In cor(t(critics1), use = "complete.obs") : the standard deviation is zero

Почему параметр использования не имеет такого же эффекта? Вот как выглядит датафрейм critics1;

film1 film2 film3 film4 film5 film6
y   2.5   3.5   3.0   3.5   3.0   2.5
a   3.0   3.5   1.5   5.0   3.0   3.5
b   2.5   3.0    NA   3.5   4.0    NA
c    NA   3.5   3.0   4.0   4.5   2.5
d   3.0   4.0   2.0   3.0   3.0   2.0
e   3.0   4.0    NA   5.0   3.0   3.5
x    NA   4.5    NA   4.0    NA   1.0

1 Ответ

7 голосов
/ 06 декабря 2011

Как предположил @joran, когда вы транспонируете critics1, есть только два полных наблюдения (то есть строки без пропущенных значений). Вот почему все корреляции либо 1 или -1, либо (для тех, в которых задействовано y, значение которого в обеих полных строках равно 3,5), NA.

t(critics1)
#         y   a   b   c d   e   x
# film1 2.5 3.0 2.5  NA 3 3.0  NA
# film2 3.5 3.5 3.0 3.5 4 4.0 4.5
# film3 3.0 1.5  NA 3.0 2  NA  NA
# film4 3.5 5.0 3.5 4.0 3 5.0 4.0
# film5 3.0 3.0 4.0 4.5 3 3.0  NA
# film6 2.5 3.5  NA 2.5 2 3.5 1.0

Если вы используете use="pairwise.complete.obs" вместо use="complete.obs", он будет работать так, как вы хотите:

cor(t(df), use="pairwise.complete.obs")["y","x"] # Extract correlation of y and x
# [1] 0.9912407
...