Найти параллельный t-критерий для средних и критерий для t-критерия наклона = 0 - PullRequest
0 голосов
/ 09 июня 2018

Итак, представьте себе эти две группы женщин и мужчин в возрасте:

 femalesage<-c(30,52,59,25,26,72,46,32,64,45)
 malesage<-c(40,56,31,63,63,78,42,45,67)

Я могу легко провести t.test (возраст женщины, мужской возраст), чтобы достичь следующего результата:

 t.test(femalesage,malesage)

Welch Two Sample t-test

 data:  femalesage and malesage
 t = -1.2013, df = 16.99, p-value = 0.2461
 alternative hypothesis: true difference in means is not equal to 0
 95 percent confidence interval:
 -24.224797   6.647019
 sample estimates:
 mean of x mean of y 
 45.10000  53.88889 

Теперь предположим, что у меня те же данные организованы по-разному, поэтому что-то вроде этого:

ages<-c(30,52,59,25,26,72,46,32,64,45,40,56,31,63,63,78,42,45,67)
genders<-c("F","F","F","F","F","F","F","F","F","F","M","M","M","M","M","M","M","M","M","M")
df<-data.frame(ages, genders)

Я хочу добиться результата, аналогичного критерию Вельша с двумя выборками, используя какой-то регрессионный тест,тестирование наклона Beta1 = 0 против Beta1, не равного 0, где B1 - коэффициент пола, а ответ - возраст.Любая идея, как я мог получить тот же результат?

1 Ответ

0 голосов
/ 09 июня 2018

T-критерий и линейная регрессия являются частными случаями общей линейной модели.В случае одного предиктора проверка значимости коэффициента регрессии эквивалентна значению t-критерия. Функция

R's t.test позволяет указывать входные данные двумя различными способами:как два отдельных вектора, как вы сделали, или с интерфейсом формулы, как я делаю здесь.Точно так же функция lm, которая выполняет простую линейную регрессию, требует интерфейса формулы.В этом случае это делает два вызова функции идентичными, и нам нужно только изменить имя функции.

Ваши данные:

ages <- c(30,52,59,25,26,72,46,32,64,45,40,56,31,63,63,78,42,45,67)
genders <- c("F","F","F","F","F","F","F","F","F","F","M","M","M","M","M","M","M","M","M","M")
df <- data.frame(ages, genders)

T-тест:

t.test(ages ~ genders, data = df)

    Welch Two Sample t-test

data:  ages by genders
t = -1.2013, df = 16.99, p-value = 0.2461
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -24.224797   6.647019
sample estimates:
mean in group F mean in group M 
       45.10000        53.88889 

A (почти) идентичная регрессия:

summary(lm(ages ~ genders, data = df))

Call:
lm(formula = ages ~ genders, data = df)

Residuals:
   Min     1Q Median     3Q    Max 
-22.89 -13.49   0.90  11.11  26.90 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)   45.100      5.060   8.914 8.12e-08 ***
gendersM       8.789      7.351   1.196    0.248    
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 16 on 17 degrees of freedom
Multiple R-squared:  0.07756,   Adjusted R-squared:  0.0233 
F-statistic: 1.429 on 1 and 17 DF,  p-value: 0.2483

Обратите внимание, чтоt и бета пола почти совпадают с p-значениями.

...