Я довольно беден в статистике, но все еще должен использовать statsmodels для запуска регрессии Разница-в-разнице (DID) с использованием Weighted Least Squares (WLS). Я знаю, как запустить регрессию WLS, но я не уверен, как меняется мое уравнение регрессии OLS, когда я запускаю регрессию WLS, где я добавил веса к каждому наблюдению.
Мой вопрос: как изменилось мое (DID) уравнение регрессии OLS, добавив веса и выполнив анализ WLS?
Я объясню (подробно), что я сделал, и я надеюсь, что кто-то готов помочь мне! Заранее спасибо.
В этой схеме DID в течение двух периодов времени наблюдаются две группы (g = 1,2) (t = 1,2). Во второй период времени только вторая группа подвергается лечению. В этом случае g1 является контрольной группой, а g2 является группой вмешательства. Пусть Ig = 1 (где группа g2) - фиктивная переменная, указывающая наблюдения в группе вмешательства.
Вероятность падения пожилого взрослого (число случаев падения / количество пожилых людей, проживающих в определенном регионе) (зависимая переменная) известны для года t1 (до вмешательства) и года t2 (после вмешательства). Фиктивная переменная Pt = 1 (где период времени равен t2) указывает на наблюдения со второго периода.
Переменная лечения является продуктом Ig и Pt. Эта фиктивная переменная равна 1 только для наблюдения в группе вмешательства и в период t2.
Я выполняю регрессию, чтобы оценить влияние определенной программы (в момент t2), которая уменьшает количество случаев падения среди пожилых людей. Всего в 15 регионах 5 регионов входят в группу вмешательства, а 10 - в контрольную группу всего за два года.
Используется следующее уравнение:
Y_gt = x_0 + x_1 * I_g + x_2 * P_t + x_3 * (I_g * P_t) + ∈_gt
Коэффициент x_3 обеспечивает оценку разности разностей.
Есть также данные о том, сколько пожилых людей живут в этих регионах. Я хочу добавить весовые коэффициенты к этим регионам, используя пожилое население в этих областях: чтобы регионы с высоким уровнем пожилого населения внесли больший вклад в коэффициенты регрессии. Вот полная таблица, содержащая всю информацию для запуска регрессии DID. Итак, первая - моя зависимая переменная, средние 3 - мои независимые переменные, а последние - веса:
array([[0.018734177, 0, 0, 0, 1975],
[0.01827957, 0, 0, 0, 930],
[0.018181818, 0, 0, 0, 1375],
[0.019463087, 1, 0, 0, 1490],
[0.03028169, 1, 0, 0, 1420],
[0.034146341, 1, 0, 0, 820],
[0.023076923, 1, 0, 0, 1300],
[0.021658986, 1, 0, 0, 2170],
[0.018099548, 0, 0, 0, 1105],
[0.022801303, 0, 0, 0, 1535],
[0.015625, 0, 0, 0, 640],
[0.026737968, 0, 0, 0, 935],
[0.017518248, 0, 0, 0, 685],
[0.021374046, 0, 0, 0, 655],
[0.015859031, 0, 0, 0, 1135],
[0.01980198, 0, 1, 0, 2020],
[0.014507772, 0, 1, 0, 965],
[0.019928826, 0, 1, 0, 1405],
[0.015189873, 1, 1, 1, 1580],
[0.021678322, 1, 1, 1, 1430],
[0.020606061, 1, 1, 1, 825],
[0.020454545, 1, 1, 1, 1320],
[0.017155756, 1, 1, 1, 2215],
[0.018181818, 0, 1, 0, 1155],
[0.028289474, 0, 1, 0, 1520],
[0.0144, 0, 1, 0, 625],
[0.024309392, 0, 1, 0, 905],
[0.009859155, 0, 1, 0, 710],
[0.016058394, 0, 1, 0, 685],
[0.016450216, 0, 1, 0, 1155]], dtype=int64)
Я использовал statsmodels, чтобы сделать это. Я использовал следующий код:
y = Pivot_DID_Analysis_65_75.values[:,0]
x = Pivot_DID_Analysis_65_75.values[:,1:4]
Pop_65_75 = Pivot_DID_Analysis_65_75.values[:,4]
x, y = np.array(x), np.array(y)
x = sm.add_constant(x)
model = sm.WLS(y, x, weights=Pop_65_75)
results = model.fit()
print(results.summary())
Это дает мне желаемые результаты регрессии WLS (по крайней мере, так я думаю). Однако я не знаю, как изменилось мое уравнение путем добавления весов (совокупности) и того факта, что я использовал statsmodels WLS.
Мой вопрос: как изменилось мое (DID) уравнение регрессии OLS, добавив весовые коэффициенты и выполнив WLS-анализ, описанный выше?