Stata - Создать внутри группы идентификаторы - PullRequest
0 голосов
/ 21 апреля 2020

У меня есть набор данных потоков между местоположениями, скажем, они 50 мест, но количество пар даже не потому, что в некоторых местах нет потоков. Я хотел бы создать идентификаторы для каждой пары наблюдений (w_id и h_id)

Спасибо.

Желаемый вывод

w_code h_code w_id h_id

295101011001003 291892204451015 1 1

295101011001003 295101011001003 1 2

295101011001003 291892202003011 1 3

295101011001025 295101 101 101 101 101 100 1011 10125 1011 10125 1011 10125 1011 10125 1011 10125 1011 10125 1011 10125 1011 10125 1011 10125 1011 10125 1012 1011 10125 1011 10125 1011 10125 1011 1011 1001 * 100 * 10 100 * 295101011001003 290101 * 101 * 101 * 100 * 101 * 10125 1019 * 295101011001026 291879507003038 3 1

295101011001026 190130007001013 3 2

295101011001026 295101105001027 3 3

295101011001026 29189212 2926 10 * 29 * 10 * 29 * 10 * 29 * 10 * 29 * 10 * 29 * 10 * 29 * 10 * 29 * 10 * 29 * 10 * 29 * 10 * 29 * 10 * 29/10/29/10/29/10/10/10/10/10/10/10/10/10/10/10/10/10 * 10 * 29 * 10 * 29 * 10 1029 * 295101011001029 291892199006006 4 1

295101011002007 295101011002015 5 1

295101011002014 295101011002016 6 1

295101011002014 295101 * 101 * 10 100 * 291 100 * 100 1039 * 295101011002030 295101255001008 8 1

1 Ответ

0 голосов
/ 22 апреля 2020

Документация, доступная через Stata, включает этот документ по составным категориальным переменным и этот документ по обработке дядей c data . Команда Stata search привела бы к этим статьям, за исключением того, что искусство поиска, а также поиска - это поиск правильных ключевых слов.

В вашем случае возникает естественный вопрос, является ли, например, пара (1, 2) действительно такой же, как (2, 1), и для потоков я предполагаю, что нет. В математике абстракция часто является ключом к решение проблемы; в статистических вычислениях некоторая конкретность может прояснить проблему. Возможно, h означает мужа, а w означает жену, а может и нет. Предполагая, что (1, 2) и (2, 1) совершенно разные, объединенный идентификатор сразу получается с помощью

 egen newid = group(w_id h_id) 

, а для небольшого количества идентификаторов - вы упомянули 50 - нет боль в запросе значений, которые будут помечены, так что при

egen newid = group(w_id h_id), label 

пара (1, 1) будет сопоставлена ​​со значением 1 и меткой значения 1 1.

Поскольку это решение не было сразу очевидным, вполне вероятно, что исследование help egen выявит набор инструментов, которые могут быть полезны в управлении данными; некоторые являются непосредственно статистическими.

Пары идентификаторов, где Billy, Bob следует рассматривать как Bob, Billy, см. Во втором документе, связанном выше. Является ли это правдой для ОП, немного неясно, но, вероятно, это будет верно для некоторых других, читающих это в будущем.

...