У меня есть фрейм данных df
, как указано ниже (образец для простоты запроса):
ID Sales
10001 214108
10002 207858
10003 76548
10004 68361
10005 56456
Мне нужно задать подмножество df
так, чтобы результирующие строки содержали 90% от общего объема продаж.Я сталкивался с этим подходом , но я не получаю желаемого результата.Я использовал следующее:
subset(df, Sales >= quantile(Sales,0.9))
Я получил следующее:
>ID Sales
<dbl> <dbl>
1 10001 214108
Моя текущая идея - сделать это следующим образом:
- Добавить новый столбец, используя:
df$Sales_pct = Sales/sum(Sales)
- Сортировка
df
в порядке убывания Sales_pct
значений столбца - Добавить еще один столбец с совокупным процентом, а затем подмножество строк, которые имеют накопительныйпроцентное значение меньше 0,9
Но я чувствую, что для этого должен быть лучший подход.Может кто-нибудь помочь?