Question

У меня есть некоторые данные, которые выглядят следующим образом. Он сгруппирован по переменной «Год», и я хочу извлечь процентили каждого наблюдения за Счетом по отношению к Году, из которого он, предпочтительно как вектор.

Year   Score
2001   89
2001   70
2001   72
2001   ...
..........
2004   87
2004   90

и т.д.

Как я могу это сделать? агрегат не будет работать, и я не думаю, что применять будет работать тоже.

Jonathan Chang · Answer 1 · 29 января 2010

Следуя решению Винса, вы также можете сделать это с помощью plyr или by:

ddply(df, .(years), function(x) transform(x, percentile=ecdf(x$scores)(x$scores)))

Vince · Answer 2 · 29 января 2010

Возможно, я неправильно понимаю, но думаю, что это можно сделать так:

> years = c(2006, 2006, 2006, 2006, 2001, 2001, 2001, 2001, 2001)
> scores = c(13, 65, 23, 34, 78, 56, 89, 98, 100)
> tapply(scores, years, quantile)
$`2001`
  0%  25%  50%  75% 100% 
  56   78   89   98  100 

$`2006`
   0%   25%   50%   75%  100% 
13.00 20.50 28.50 41.75 65.00

Это правильно?

Я имею в виду фактический процентиль каждого наблюдение. - Райан Росарио

Edit:

Я думаю, что это может сделать это тогда:

> tapply(scores, years, function(x) { f = ecdf(x); sapply(x, f) })
$`2001`
[1] 0.4 0.2 0.6 0.8 1.0

$`2006`
[1] 0.25 1.00 0.50 0.75

С вашими данными:

> tapply(scores, years, function(x) { f = ecdf(x); sapply(x, f) })
$`2000`
[1] 0.3333333 0.6666667 1.0000000

$`2008`
[1] 0.5 1.0

Редактировать 2:

Это, вероятно, быстрее:

tapply(scores, years, function(x) { f = ecdf(x); f(x) })

f() векторизовано: -)

Последнее, модификация, обещаю :-). Если вы хотите имена:

> tapply(scores, years, function(x) { f = ecdf(x); r = f(x); names(r) <- x; r })
$`2000`
     1000      1700      2000 
0.3333333 0.6666667 1.0000000 

$`2008`
1500 2000 
 0.5  1.0

aL3xa · Answer 3 · 29 января 2010

Вы также можете сделать что-то вроде этого:

# first I'll create two dummy variables (Year, Score)
year <- rep(2001:2005, 2)
score <- round(rnorm(10, 35, 3))

# then coerce variables to data frame
d <- data.frame(year, score)

# then you can use split() function to apply
# function to each stratum of grouping variable
sapply(split(score, year), function(x) quantile(x, probs=seq(.1, .9, .1)))

Вывод будет выглядеть примерно так:

     2001 2002 2003 2004 2005
10%  34.3 32.1 34.3 29.6 36.1
20%  34.6 32.2 34.6 30.2 36.2
30%  34.9 32.3 34.9 30.8 36.3
40%  35.2 32.4 35.2 31.4 36.4
50%  35.5 32.5 35.5 32.0 36.5
60%  35.8 32.6 35.8 32.6 36.6
70%  36.1 32.7 36.1 33.2 36.7
80%  36.4 32.8 36.4 33.8 36.8
90%  36.7 32.9 36.7 34.4 36.9

Вы можете использовать функцию t () для транспонирования строк и столбцов, если хотите. Написание функции будет хорошим способом решения подобных проблем. Я настоятельно рекомендую пакет plyr, написанный Хэдли Викам.

Надеюсь, это поможет! Всего наилучшего!

hannes101 · Answer 4 · 20 июня 2017

Использование data.table также довольно просто. Просто для полноты, а также как простой способ найти решение для data.table.

library(data.table)
year <- rep(2001:2005, 2)
score <- round(rnorm(10, 35, 3))

dt <- data.table(score)


dt[, .(Percentile = ecdf(score)(score)), by = list(year)]

Ian Fellows · Answer 5 · 29 января 2010

Как насчет чего-то вроде:

Year <- c(2000,2008,2008,2000,2000)
Fees <- c(1000,1050,2000,1700,2000)
dat <- data.frame(Fees,Year,result=NA)
res <- tapply(Fees,Year,function(x) rank(x,ties.method="max")/length(x))
for(i in 1:length(res))
   dat[Year==as.numeric(names(res)[i]),"result"] <-res[[i]]

, что дает:

  Fees Year    result
1 1000 2000 0.3333333
2 1050 2008 0.5000000
3 2000 2008 1.0000000
4 1700 2000 0.6666667
5 2000 2000 1.0000000

Ryan R. Rosario · Answer 6 · 29 января 2010

Я нашел метод, но он требует цикла.

group.pctiles <- function(group.var, comparable) {
    unique.vals <- unique(group.var)
    pctiles <- vector(length = length(group.var))
    for (i in 1:length(unique.vals)) {
        slice <- which(group.var == unique.vals[i])
        F <- ecdf(comparable[slice])
        group.pctiles <- F(comparable[slice])
        pctiles[slice] <- group.pctiles
    }
    return(pctiles)
}

group.var - это переменная, которая группирует данные. В моем примере в моем вопросе это год. сопоставимый содержит значения, для которых мы хотим найти процентили. В моем вопросе сопоставимым будет счет.

Для следующих данных я получаю результат ниже:

Year,School,Fees
2000,10,1000
2008,1,1050
2008,4,2000
2000,3,1700
2000,1,2000

> group.pctiles(dat, dat$Year, dat$Fees)
[1] 0.3333333 0.5000000 1.0000000 0.6666667 1.0000000

Затем я могу привязать эти процентили обратно к исходным данным. Рамка для анализа, составления отчетов и т. Д.

У кого-нибудь есть решение, которое не требует цикла?

Процентиль для каждого наблюдения с переменной группирования

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 7 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Процентиль для каждого наблюдения с переменной группирования

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 7 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов