Проблема R `t.test` вызывает` 159 равняется 8875` - PullRequest
0 голосов
/ 05 мая 2020

R версия 3.5.3 (2019-03-11), посмотрите результат ниже:

> t.test(a$score,a$time,paired=FALSE)

    Welch Two Sample t-test

data:  a$score and a$time
t = -1.4861, df = 8382, p-value = 0.1373
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -20215.279   2781.535
sample estimates:
mean of x mean of y 
 159.0481 8875.9203 

p value равно 0,1373 (> 0,05), но среднее значение двух переменных 159.0481 и 8875.9203.

Я загружаю .Rdata в https://file.io/EH9XV44u

Что-то не так с моим t.test?

1 Ответ

1 голос
/ 05 мая 2020

Думаю, название вашего вопроса указывает на проблему.

Результат, согласно которому среднее значение 159 в одном наборе данных не демонстрирует существенной разницы со средним значением 8875 в другом наборе данных, не означает, что «159 равно 8875».

Это просто означает, что данные допускают достаточную неопределенность в отношении «истинных» значений средних (из которых были взяты данные), что вы не можете с уверенностью сказать, что они отличаются.

Несмотря на то, что интуитивно вы можете подумать, что 159 «выглядит» сильно отличается от 8875, мы проводим статистический тест, чтобы проверить (или опровергнуть) нашу интуицию, что это различие не могло возникнуть случайно. В этом случае кажется, что интуиция ошибочна.

Как сказали Эдвард и Хонг Оуи в комментариях, это, вероятно, связано с тем, что один (или оба) ваших набора данных очень рассредоточены, поэтому одно только среднее значение не отражает степень неопределенности.

Крайний пример, который может прояснить это:

data1: c(7,105,365) = среднее значение 149

data2: c(3,22,26600) = среднее значение 8875

Это ясно (чтобы me), что мы не можем быть очень уверены в том, что данные data1 и data2 действительно разные, поскольку разница в среднем значении возникает только из-за одного высокого значения в data2. Итак, хотя средства кажутся очень разными, мы не ожидаем, что это будет значительным, если мы их протестируем.

Действительно:

t.test(data1,data2)
# p-value = 0.4291

Думаю, если вы внимательно посмотрите на свои собственные данные, вы найдете нечто похожее ...

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...