Я пытаюсь извлечь выбросы из моего набора данных и соответствующим образом пометить их.
Образцы данных
Doctor Name Hospital Assigned Region Claims Illness Claimed
1 Albert Some hospital Center R-1 20 Sepsis
2 Simon Another hospital Center R-2 21 Pneumonia
3 Alvin ... ... ... ...
4 Robert
5 Benedict
6 Cruz
Поэтому я пытаюсь сгруппировать каждые Doctor
, которые Claimed
определенный Illness
в определенном Region
и пытается найти среди них выбросы.
Doctor Name Hospital Assigned Region Claims Illness Claimed is_outlier
1 Albert Some hospital Center R-1 20 Sepsis 1
2 Simon Another hospital Center R-2 21 Pneumonia 0
3 Alvin ... ... ... ...
4 Robert
5 Benedict
6 Cruz
Я могу сделать это в Power BI.Но, будучи довольно новым для Python, я не могу этого понять.
Вот чего я пытаюсь достичь:

Алго звучит так:
Read data
Group data by Illness
Group by Region
get IQR based on Claims Count
if claims count > than (Q3 + 1.5) * IQR
then tag it as outlier = 1
else
not an outlier = 0
Export data
Есть идеи?