Как генерировать данные для значительного тестирования? - PullRequest
0 голосов
/ 20 сентября 2019

Я хочу сгенерировать некоторые данные для линейной регрессии и выбора модели.Вот простой пример, который я использовал, но как я могу сгенерировать некоторые независимые переменные, чтобы удовлетворить их P-значению, близкому к 0,05?На самом деле я не уверен, является ли этот вопрос правильным или нет.Спасибо за любые рекомендации!

a=rnorm(100,mean=5,sd=2)
b=rnorm(100)
c=rnorm(100,mean=3,sd=1)
d=rnorm(100,mean=40,sd=5)
e=rnorm(100,mean=80,sd=7)
g=rnorm(100,mean=7.9,sd=0.5)
f=sample(c(0,1),100,prob=c(0.6,0.4),replace=T)
yy=2*a+0.1*b+3*c-0.6*d+0.2*e+0.9*f-2*g+rnorm(100,mean=0,sd=1)
ll=lm(yy~a+b+c+d+e+factor(f)+g)
summary(ll)
# Coefficients:
#               Estimate Std. Error t value Pr(>|t|)    
# (Intercept)   -3.05618    2.67722  -1.142  0.25660    
#   a            1.98623    0.05521  35.974  < 2e-16 ***
#   b            0.05994    0.10657   0.562  0.57520    
#   c            2.98780    0.10386  28.767  < 2e-16 ***
#   d           -0.59633    0.01915 -31.134  < 2e-16 ***
#   e            0.20678    0.01644  12.577  < 2e-16 ***
#   factor(f)1   0.72422    0.24321   2.978  0.00371 ** 
#   g           -1.67970    0.25617  -6.557 3.15e-09 ***
#   ---
#   Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
# 
# Residual standard error: 1.122 on 92 degrees of freedom
# Multiple R-squared:  0.972,   Adjusted R-squared:  0.9699 
# F-statistic:   456 on 7 and 92 DF,  p-value: < 2.2e-16
...