Я использую R для некоторых вычислений. Это вопрос о R, но также и о статистике.
Допустим, у меня есть набор данных парных образцов, состоящих из концентрации тромбоцитов в крови субъекта после инъекции плацебо, а затем снова после инъекции лекарства для ряда субъектов. Я хочу оценить среднюю разницу для парных образцов. Я только что изучаю распределение t. Если бы я хотел получить 95% доверительный интервал для средней разницы с помощью Z-теста, я мог бы просто использовать:
mydata$diff <- mydata$medication - mydata$placebo
mu0 <- mean(mydata$diff)
sdmu <- sd(mydata$diff) / sqrt(length(mydata$diff))
qnorm(c(0.025, 0.975), mu, sdmu)
После долгой путаницы и перекрестной проверки с функцией t.test
я выяснил, что я могу получить 95% доверительный интервал для t-теста с:
qt(c(0.025, 0.975), df=19) * sdmu + mu0
Я понимаю это следующим образом:
Tstatistic = (mu - mu0)/sdmu
Tcdf^-1(0.025) <= (mu - mu0) / sdmu <= Tcdf^-1(0.975)
=>
sdmu * Tcdf^-1(0.025) + mu0 <= mu <= sdmu * Tcdf^-1(0.975) + mu0
Причина, по которой это сбивает с толку, заключается в что если бы я использовал Z-тест, я бы написал его так:
qnorm(c(0.025, 0.975), mu0, sdmu)
, и только когда я попытался выяснить, как использовать t-распределение, я понял, что могу переместить нормальное распределение параметры тоже вне функции:
qnorm(c(0.025, 0.975), 0, 1) * sdmu + mu0
Пытаясь понять, что это означает математически, это означает, что Z-статистика c (mu - mu0) / sdmu всегда нормально распределяется со средним 0 и стандартное отклонение 1?
Что меня озадачило, так это то, что я хотел бы переместить параметры распределения t в аргументы функции, чтобы сократить огромные умственные затраты на размышления о это преобразование.
Однако, согласно моей версии документации функции R qt
, для этого мне нужно было бы вычислить параметр нецентральности ncp. Согласно (моей версии) документации, ncp объясняется следующим образом:
Let T= (mX - m0) / (S/sqrt(n)) where mX is the mean and S the sample standard deviation (sd) of X_1, X_2, …, X_n which are i.i.d. N(μ, σ^2) Then T is distributed as non-central t with df= n - 1 degrees of freedom and non-centrality parameter ncp = (μ - m0) * sqrt(n)/σ.
Я вообще не могу об этом думать. Сначала кажется, что это вписывается в мои рамки, потому что Tstatistic = (mu - m0) / sdmu
. Но разве не μ я хочу, чтобы функция qt
(то есть Tcdf-1), чтобы возвращала ? Как он может появиться в ncp, который мне нужно ввести в качестве ввода? А что насчет σ? Что означают μ и σ в этом контексте?
В принципе, как я могу получить тот же результат, что и qt(c(0.025, 0.975), df=19) * sdmu + mu0
, без каких-либо терминов вне вызова функции, и могу ли я получить объяснение, как это работает?