Моделирование набора данных, который включает в себя категориальную переменную - PullRequest
0 голосов
/ 23 февраля 2020

Я хотел бы смоделировать категориальную переменную с n = 4 уровнями для набора данных панели. Я буду ассоциировать переменную с непрерывным результатом. Я знаю значения коэффициентов для каждого уровня относительно эталонного уровня, потому что раньше я запускал линейную модель, как показано ниже

summary(lm(write ~ race.f, data = hsb2))
## 
## Call:
## lm(formula = write ~ race.f, data = hsb2)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -23.055  -5.458   0.972   7.000  18.800 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)    46.46       1.84   25.22  < 2e-16 ***
## race.f2        11.54       3.29    3.51  0.00055 ***
## race.f3         1.74       2.73    0.64  0.52461    
## race.f4         7.60       1.99    3.82  0.00018 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 9.03 on 196 degrees of freedom
## Multiple R-squared:  0.107,  Adjusted R-squared:  0.0934 
## F-statistic: 7.83 on 3 and 196 DF,  p-value: 5.78e-05

В Stata я сгенерировал бы результат y, сначала создав расу в качестве категориальной переменной. (со значениями 0 (ссылка), 1, 2 и 3)

Создать переменную гонки

Генерировать гонку = _n-1

Определить локальные макросы

локальный перехват 4.20

локальный racecoeff1 11.54

локальный racecoeff2 1.74

local racecoeff3 7.60

Генерирование непрерывного результата y

генерация y = intercept' + racecoeff1 '* 1.race + racecoeff2'*2.race + racecoeff3' * 3.race

Любая помощь будет принята с благодарностью.

...