Для данных, которые имеют следующую переменную: Student_ID, Start_week, Sy, Item, Type, School, Tuition и Country.Если наблюдение имеет одинаковую комбинацию (Student_Id, Start_week, Sy, Item, Type и School), это дублирующее наблюдение.
Например:
Student_ID Start_week Sy Item Type School
10001 1 11 101 0 2
10001 1 11 101 0 2
Два наблюдения являются дубликатами, поскольку они имеют одинаковое значение для комбинации.То, что я делал, было:
proc freq data = mydataset;
by Student_ID;
tables Start_week Sy Item Type School;
run;
Однако это не помогло мне увидеть, что является дубликатами, а что нет.Я хотел создать переменную count для подсчета дубликатов, но она не захватила комбинацию, а только Student_ID.Более того, при использовании proc freq не хватало памяти.
Каковы эффективные способы выявления дублирующихся значений?