У меня есть набор данных, содержащий переменную ID
и переменную с четырьмя уровнями.Я хотел бы посчитать число уникальных значений идентификаторов по каждой отдельной комбинации значений второй переменной, которая встречается в наборе данных.
Имеют:
ID Var2
--------
1 A
1 B
1 C
2 A
2 B
2 C
2 D
3 A
3 B
4 A
4 B
4 C
5 A
5 B
5 C
6 A
6 B
6 C
6 D
Хотите:
Var2 Unique ID
distinct freq
A 0
B 0
C 0
D 0
AB 1
AC 0
AD 0
BC 0
BD 0
CD 0
ABC 3
ABD 0
ACD 0
BCD 0
ABCD 2
ИЛИ
ID Var2
context
--------
1 ABC
2 ABCD
3 AB
4 ABC
5 ABC
6 ABCD
Каждое наблюдение представляет собой отдельную комбинацию двух переменных.Поскольку вторая переменная имеет четыре уровня, возможны комбинации 2 ^ 4-1.Я хотел бы создать таблицу, которая показывает мне частоты уникальных ID
для каждой возможной комбинации значений для Var2
.
Я думал о создании фиктивной переменной с 15 уровнями в соответствии с Var2
и ID
и запуск процедуры частоты на этих 15 уровнях.Я также думал о создании переменной с объединенными значениями Var2
от ID
.
Я хотел бы либо создать таблицу, подобную приведенной выше, либо новую переменную, которая указывает Var2
контекст для каждого отдельного ID
.