Найти доверительный интервал по группе с питоном - PullRequest
0 голосов
/ 19 ноября 2018

Я хотел бы обнаружить выбросы в наборе данных с моделью автомобиля и их относительной ценой.

lower_bound=0.01
upper_bound=0.99
for i in df.MODEL_DESCRIPTION:
   res=df.where(df.MODEL_DESCRIPTION==i).\
   DOCUMENT_AMOUNT_TOTAL.quantile([lower_bound, upper_bound])
   print(i, res)

таким образом, я установил интервал для всего фрейма данных в каждой модели, но я бы хотел сделать это отдельно () для каждой модели. Я пытался использовать окно (pySpark) или функцию фильтрации от панд, но безуспешно. Заранее благодарю за помощь!

Пример набора данных:

  MODEL 7   78176,6
  MODEL 7   92830,86
  MODEL 7   67974,44
  MODEL 3   29951,43
  MODEL 7   71384,22
  MODEL 11  30137,76
  MODEL 2   37135,35
  MODEL 11  40526,74
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...