Моя цель - установить квантили для данного столбца, а затем назначить каждой строке соответствующий интервал на основе этих квинтилей.
Определить данные квинтиля достаточно просто:
quantile(df$x, probs=seq(0,1,0.2),na.rm = TRUE)
Но я немного растерялся относительно того, как назначить эту информацию каждой строке, используя функции вместо ручного хеширования.Я играл с apply
и tapply
, но до сих пор не дошел.Нечто подобное приводит к тому, что по существу та же информация, что и выше, но ссылается на конкретные UID и дополнительные столбцы в разбивке по категориям:
apply(df, 2, quantile, probs = c(0.2, 0.4, 0.6, 0.8, 1.0), na.rm = TRUE)