Я не могу найти решение для поиска выбросов в категориальных данных. Мои данные состоят из набора строк. Я хочу отметить выбросы, которые отличаются определенной комбинацией. В приведенном выше вопросе, как указано, я не могу кластеризовать данные, так как строка данных, не являющаяся выбросом, и строка выброса имеют одинаковую частоту. Мои данные выглядят примерно так ->
c1 c2 c3 c4
row1-> A B C ,D
row2-> A B C D,
row3-> A D C ,G
row4-> NU D E G,
row6-> NU D E X
Пожалуйста, предложите действительный logi c для решения проблемы. Я также пытался распределить данные на основе частоты, но я не могу назначить пороговое значение, так как я не могу найти значение для рассмотрения данных как выбросов. Предоставление способа найти пороговое значение также может помочь.