У меня есть следующий набор еженедельных розничных данных, заказанных после Category
(например, шоколад), * 1002 * (например, Cadbury's) и Week
(1-208).CBX
является уникальным глобальным идентификатором для каждого бренда.
Category Brand Week Sales Price CBX
33 2 1 167650. 2.20 33 - 2
33 2 2 168044. 2.18 33 - 2
33 2 3 160770 2.24 33 - 2
Теперь я хочу удалить бренды, которые имеют нулевые продажи более чем в 75% недель (таким образом, имеют положительные продажи как минимум через 156 недель).).Сначала я удалил все бренды с нулевыми продажами, используя dplyr
, но он удалил слишком много данных.Это был код, который я использовал:
library(dplyr)
Final_df_ <- Final_df %>%
group_by(Final_df$CBX) %>%
filter(!any(Sales==0 & Price==0))
Теперь я пытаюсь изменить код, чтобы он удалял все строки, принадлежащие бренду (CBX
), только если продажи этого бренда больше нулячем в 25% случаев.Вот как далеко я зашел:
Final_df_ <- Final_df %>%
group_by(Final_df$CBX) %>%
filter(!((Final_df$Sales==0)>0.75))
Спасибо!