Когда я запускаю регрессию в R, используя lm, я получаю идентичный результат регрессии, когда я использую исходный data.frame и когда я помещаю data.frame в подмножество.
У меня есть data.frame в R с данными за четыре года из 250 различных филиалов для конкретной компании.
Я хочу регрессировать две переменные за весь четырехлетний период, а затем регрессировать за отдельные годы.
Однако, когда я включаю команду подмножества, чтобы ограничить регрессию определенным годом, я не получаю никаких ошибок, и регрессия идентична той за весь четырехлетний период.
Я пробовал использовать несколько разных методов подмножества, и у меня каждый раз одна и та же проблема. Я полагаю, что я правильно делаю поднаборы, потому что я не получаю никаких сообщений об ошибках, и я могу правильно выполнить поднабор с этими же командами в других обстоятельствах.
Вот регрессия, которую я провел за весь четырехлетний период, и результаты:
> summary(lm(branch_annual$Unfairness_Scale ~ branch_annual$OS_EmpDSup,
data = branch_annual))
Call:
lm(formula = branch_annual$Unfairness_Scale ~ branch_annual$OS_EmpDSup,
data = branch_annual)
Residuals:
Min 1Q Median 3Q Max
-2.4815 -0.7767 -0.0109 0.8676 2.4406
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1.67381 0.32745 5.112 4.3e-07 ***
branch_annual$OS_EmpDSup 0.22354 0.08323 2.686 0.00744 **
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 1.091 on 599 degrees of freedom
(344 observations deleted due to missingness)
Multiple R-squared: 0.0119, Adjusted R-squared: 0.01025
F-statistic: 7.214 on 1 and 599 DF, p-value: 0.007435
Я получаю точно такой же результат, когда запускаю следующую команду:
> summary(lm(branch_annual$Unfairness_Scale ~ branch_annual$OS_EmpDSup,
data = subset(branch_annual, year == 15 )))
Если я поставлю 15 в кавычках, ничего не изменится.
Я считаю, что правильно использую команду subset, потому что, если я запускаю следующую команду:
> branch_annual_15 <- subset(branch_annual, year == 15)
Он правильно создает data.frame, который включает все в branch_annual, для которого столбец "year" имеет значение 15, что составляет примерно одну четверть data.frame.
Если я запускаю исходную регрессию для этого уменьшенного data.frame, я получаю совсем другой результат.
Есть идеи о том, чего мне не хватает и почему команда подмножества ничего не меняет, когда я запускаю регрессию?
Спасибо!
Себастьян