Документация, доступная через Stata, включает этот документ по составным категориальным переменным и этот документ по обработке дядей c data . Команда Stata search
привела бы к этим статьям, за исключением того, что искусство поиска, а также поиска - это поиск правильных ключевых слов.
В вашем случае возникает естественный вопрос, является ли, например, пара (1, 2) действительно такой же, как (2, 1), и для потоков я предполагаю, что нет. В математике абстракция часто является ключом к решение проблемы; в статистических вычислениях некоторая конкретность может прояснить проблему. Возможно, h
означает мужа, а w
означает жену, а может и нет. Предполагая, что (1, 2) и (2, 1) совершенно разные, объединенный идентификатор сразу получается с помощью
egen newid = group(w_id h_id)
, а для небольшого количества идентификаторов - вы упомянули 50 - нет боль в запросе значений, которые будут помечены, так что при
egen newid = group(w_id h_id), label
пара (1, 1) будет сопоставлена со значением 1
и меткой значения 1 1
.
Поскольку это решение не было сразу очевидным, вполне вероятно, что исследование help egen
выявит набор инструментов, которые могут быть полезны в управлении данными; некоторые являются непосредственно статистическими.
Пары идентификаторов, где Billy, Bob
следует рассматривать как Bob, Billy
, см. Во втором документе, связанном выше. Является ли это правдой для ОП, немного неясно, но, вероятно, это будет верно для некоторых других, читающих это в будущем.