Diff-in-Diff с разными временами обработки для одного и того же места - PullRequest
0 голосов
/ 31 января 2020

Я пытаюсь оценить влияние закрытия угольных электростанций на качество воздуха. Мои данные - ежемесячные данные от станций контроля качества воздуха. Мои очистные сооружения находятся ближе всего к угольным электростанциям, но разные блоки угольной электростанции были закрыты в разные месяцы. Например, на заводе из 4 блоков 2 блока были закрыты в октябре 2010 года, а два других - в сентябре 2013 года. Я ищу экспериментальный проект, позволяющий вывести причинное влияние закрытия на качество воздуха.

Я был интересно, верна ли следующая спецификация:

enter image description here

где P_ {it} - загрязняющее вещество, сообщаемое со станции i в году-месяце t. \alpha_{i} и \lambda_{t} - манекены станции и года-месяца, а D ^ {i} _ {t} - показатель, равный единице в году-месяце t для станции i, ближайшей к угольной электростанции, которая была закрыта в год-месяц т.

Два вопроса: 1) Могу ли я оставить D ^ {i} _ {t} равным единице только в течение месяца закрытия (или только в течение трех месяцев после закрытия) вместо того, чтобы иметь его равным единице для всех периодов после закрытия (как предлагается в решении к этому посту 2 )? Сокращения загрязнения значительны только тогда, когда я сохраняю D равным единице в течение короткого периода времени после закрытия.

2) Должны ли временные манекены быть манекенами year_month или двумя отдельными фиктивными переменными (т. Е. Одна для месяцев и один на годы)?

1 Ответ

0 голосов
/ 31 января 2020

Традиционный Diff-n-Diff потребует трех трех основных c переменных. Одна переменная для того, находится ли она в обработанной группе (т. Е. Завод рядом с местом сбора данных был закрыт). Одна переменная, если это время наблюдения прошло после даты закрытия завода. Эта переменная будет одна для всех периодов времени, следующих за периодом закрытия завода. Наконец, одна переменная, которая умножает два.

Допустим, у вас есть заводы A & B. Завод A закрывается в январе 2013 года.

Ваши данные будут выглядеть как

Завод -------- Месяц ----- Лечение ------ Обработано ----- ОбработаноОбработано

A ----------- 12/2012 --------- 1 --------------- 0 -------------- 0

A ---------- 1 / 2013 ----------- 1 --------------- 1 ------------- 1

B --------- 12/2012 -------- 0 --------------- 0 ------------- - 0

B --------- 1/2013 ---------- 0 --------------- 1 - ------------- 0

Таким образом, для традиционного Diff-N-Diff ваша модель будет иметь вид:

Outcome_i = B_0 + B_1*Treatment + B_2*Treated + B_3*TreatmentOnTreated + CONTROLS + Error

В этом случае TreatmentOnTreated будет вашей ключевой переменной. Чтобы ответить на ваш вопрос о том, следует ли вам менять переменную только на 1 в месяц, когда завод закрывается -> Это не будет лучшим решением. Если это важно только при начальной загрузке вашей модели, то это не важно. Единственным объяснением этого может быть то, что загрязнение снижается, когда угольная электростанция закрывается, но сразу же увеличивается.

В модели Quasi-Diff-N-Diff, в которой многие заводы закрываются в разное время, модель изменится на:

Outcome_i=B_0 + B_1*PlantClosed +B_p*PlantFixedEffects + B_n * Period Fixed Effects + CONTROLS + ERROR

Это эффективно тестирует на то же самое вещь, как первая модель, но она не так чиста. Чтобы ответить на ваш вопрос о том, как разбить ваши периоды времени, я бы порекомендовал сделать каждый период отдельным фиксированным эффектом, если у вас есть размер выборки, чтобы выдержать такое количество переменных. В противном случае ваш скорректированный квадрат R сильно упадет.

Надеюсь, это поможет! Дайте мне знать, если у вас есть какие-либо вопросы!

...