Как сравнить и выбрать неизменяемые переменные в данных панели - PullRequest
0 голосов
/ 04 марта 2019

У меня есть несбалансированные групповые данные, и я должен исключить наблюдения (в т), по которым доход изменился в течение предыдущего года (т-1), сохраняя при этом другие наблюдения этих людей.Таким образом, если изменение дохода происходит в год t, то год t следует отбросить (для этого человека).

clear
input year id income
2003 513 1500
2003 517 1600
2003 518 1400
2004 513 1500
2004 517 1600
2004 518 1400
2005 517 1600
2005 513 1700
2005 518 1400
2006 513 1700
2006 517 1800
2006 518 1400
2007 513 1700
2007 517 1600
2007 518 1400
2008 513 1700
2008 517 1600
2008 518 1400
end

xtset id year
xtline income, overlay

Чтобы проиллюстрировать, что происходит, я добавляю график xtline, который соответствует доходу на человека за эти годы.ID = 518 является идеальным неизменяемым случаем (оставьте все obs).ID = 513 имеет один раз прыжок (падение 2005 года для этого человека).ID = 517 имеет что-то вроде пика, возможно, единовременной ошибки измерения (падение 2006 и 2007 гг.).

enter image description here

Я думаю, что должна быть какая-то формапетля.Инициализируйте первое значение для каждого человека (потому что это нельзя сравнить), скажем, t0.Затем сравните t1-t0, сбросьте, если изменили, иначе сравните t2-t1 и т. Д. Поскольку данные не сбалансированы, могут отсутствовать годичные аберрации.Спасибо за совет.

Обновление / цель: Цель - подготовить данные для регрессионного анализа с фиксированными эффектами.Есть еще одна переменная, сообщаемая за весь «прошлый год».Доход, однако, сообщается на дату интервью (момент времени).Мне нужно приблизиться к чему-то вроде «прошлогоднего дохода», чтобы связать это с этой переменной.Процедура предлагается и сопровождается несколькими публикациями.Я пытаюсь повторить и понять это.

Решение :

bysort id (year) : drop if income != income[_n-1] & _n > 1

1 Ответ

0 голосов
/ 04 марта 2019
bysort id (year) : gen byte flag = (income != income[_n-1]) if _n > 1
list, sepby(id)

Процедура ОЧЕНЬ IFFY методологически.Нет необходимости готовиться к анализу фиксированных эффектов, кроме xtset данных;и редко бывает какое-либо оправдание для создания недостающих данных ... не говоря уже о том, чтобы втиснуть данные в пределы того, что (другие) исследователи знают о статистике и эконометрике.Я понимаю, что это исследование репликации, но что бы вы ни делали со своей репликацией и где бы вы ее ни представляли, вы должны указать, что у первоначальных авторов не было достаточного понятия о регрессии с самого начала.Не пытайся понять это слишком усердно.

...