Я хотел бы обнаружить выбросы в наборе данных с моделью автомобиля и их относительной ценой.
lower_bound=0.01
upper_bound=0.99
for i in df.MODEL_DESCRIPTION:
res=df.where(df.MODEL_DESCRIPTION==i).\
DOCUMENT_AMOUNT_TOTAL.quantile([lower_bound, upper_bound])
print(i, res)
таким образом, я установил интервал для всего фрейма данных в каждой модели, но я бы хотел сделать это отдельно () для каждой модели. Я пытался использовать окно (pySpark) или функцию фильтрации от панд, но безуспешно. Заранее благодарю за помощь!
Пример набора данных:
MODEL 7 78176,6
MODEL 7 92830,86
MODEL 7 67974,44
MODEL 3 29951,43
MODEL 7 71384,22
MODEL 11 30137,76
MODEL 2 37135,35
MODEL 11 40526,74