Выбросы в категориальных данных? - PullRequest
0 голосов
/ 09 июля 2020

Я не могу найти решение для поиска выбросов в категориальных данных. Мои данные состоят из набора строк. Я хочу отметить выбросы, которые отличаются определенной комбинацией. В приведенном выше вопросе, как указано, я не могу кластеризовать данные, так как строка данных, не являющаяся выбросом, и строка выброса имеют одинаковую частоту. Мои данные выглядят примерно так ->

      c1 c2 c3  c4
row1-> A  B  C ,D
row2-> A  B  C  D, 
row3-> A  D  C ,G
row4-> NU D  E  G,
row6-> NU D  E  X  

Пожалуйста, предложите действительный logi c для решения проблемы. Я также пытался распределить данные на основе частоты, но я не могу назначить пороговое значение, так как я не могу найти значение для рассмотрения данных как выбросов. Предоставление способа найти пороговое значение также может помочь.

1 Ответ

0 голосов
/ 09 июля 2020

Нет методов обнаружения выбросов для категориальных данных. понятие в данном случае ничего не значит. Вы можете подумать так:

У вас есть выборка из 10 с 9 женщинами и 1 мужчиной. Вы можете подумать, что мужчина - это выброс, это просто состав вашей выборки, а не выброс.

Для существования выброса должна быть мера расстояния между элементами. Посмотрите this для получения дополнительной информации.

Пожалуйста, предложите действительный logi c для решения проблемы. Я также пытался распределить данные на основе частоты, но я не могу назначить пороговое значение, так как я не могу найти значение для рассмотрения данных как выбросов. Предоставление способа найти пороговое значение также может помочь.

Решением может быть просто value_counts столбец, чтобы у вас была частота каждого элемента.

...