Необъяснимые результаты с тестом хи-квадрат (R) - PullRequest
0 голосов
/ 07 мая 2018

У меня возникли проблемы с использованием команды chisq.test в R: я получил разные и странные результаты в зависимости от того, как я использую данные.

Допустим, у меня есть следующая таблица с именем t:

> t    
   data1   data2   data3   data4   data5
    1487    3301    2983    2432    6151
    1296    1519    1354    1244    3139
    1169     867     837     916    2191
    1372     681     802    1065    1749
    1497     630     962    1256    1304
    1502     544    1097    1380     942
    1344     477    1200    1410     673
    1031     346    1199    1286     347
     705     172     975     980     170
     542      90     919     770      66
     276      26    1005     604      10

Я делаю тесты chi2 между столбцами, но я не понимаю:

Когда я делаю chisq.test(x=t[,1], y=t[,2]), я получаю:

X-squared = 110, df = 100, p-value = 0.2322

что является тем же результатом, чем когда я делаю:

data1 <- c(1487, 1296, 1169, 1372, 1497, 1502, 1344, 1031, 705, 542, 276)
data2 <- c(3301, 1519, 867, 681, 630, 544, 477, 346, 172, 90, 26)
chisq.test(x=data1, y=data2)

Но отличается от:

t2 <- matrix(c(data1, data2), ncol=11, nrow=2, byrow=T)
chisq.test(t2)
X-squared = 2865.8, df = 10, p-value < 2.2e-16

В соответствии со степенями свободы, я полагаю, что последний верен, но что здесь происходит? Более того, я получил одинаковые значения независимо от того, какие столбцы я выбрал для использования в тесте ...

1 Ответ

0 голосов
/ 07 мая 2018

На самом деле, при третьем тесте вы помещаете data1 и data2 в один вектор и сравниваете этот вектор длиной 22 с y = NULL. Чтобы быть точным, вы делаете следующее с вашей последней командой chisq.test:

 t2 <- matrix(c(data1, data2), ncol=11, nrow=2, byrow=T)
 chisq.test(x = t2, y = NULL)

Что дает:

 Pearson's Chi-squared test
 data:  t2
 X-squared = 2865.8, df = 10, p-value < 2.2e-16
...