Рассчитать статистику (например, среднее) по ячейкам идентичных фреймов данных - PullRequest
5 голосов
/ 12 августа 2011

У меня есть список идентично отсортированных кадров данных. Более конкретно, это вмененные кадры данных, которые я получаю после выполнения нескольких вменений с помощью пакета AmeliaII. Теперь я хочу создать новый фрейм данных, идентичный по структуре, но содержащий средние значения ячеек, рассчитанных по фреймам данных.

Способ, которым я сейчас достигаю, следующий:

## do the Amelia run ------------------------------------------------------------

a.out <- amelia(merged, m=5, ts="Year", cs ="GEO",polytime=1)

## Calculate the output statistics ----------------------------------------------
left.side <- a.out$imputations[[1]][,1:2]
a.out.ncol <- ncol(a.out$imputations[[1]])

a <- a.out$imputations[[1]][,3:a.out.ncol]
b <- a.out$imputations[[2]][,3:a.out.ncol]
c <- a.out$imputations[[3]][,3:a.out.ncol]
d <- a.out$imputations[[4]][,3:a.out.ncol]
e <- a.out$imputations[[5]][,3:a.out.ncol]

# Calculate the Mean of the matrices
mean.right <- apply(abind(a,b,c,d,e,f,g,h,i,j,along=3),c(1,2),mean) 

# recombine factors with values
mean <- cbind(left.side,mean.right) 

Я полагаю, что есть гораздо лучший способ сделать это, используя apply, plyr или тому подобное, но как R Newbie я действительно немного потерян здесь У вас есть предложения, как это сделать?

Ответы [ 3 ]

4 голосов
/ 12 августа 2011

Вот альтернативный подход с использованием Reduce и plyr::llply

dfr1 <- data.frame(a = c(1,2.5,3), b = c(9.0,9,9), c = letters[1:3])
dfr2 <- data.frame(a = c(5,2,5), b = c(6,5,4), c = letters[1:3])

tst = list(dfr1, dfr2)

require(plyr)
tst2 = llply(tst, function(df) df[,sapply(df, is.numeric)]) # strip out non-numeric cols
ans  = Reduce("+", tst2)/length(tst2)

РЕДАКТИРОВАТЬ.Вы можете значительно упростить свой код и выполнить то, что вы хотите, в 5 строках кода R.Вот пример использования пакета Amelia.

library(Amelia)
data(africa)

# carry out imputations
a.out      = amelia(x = africa, cs = "country", ts = "year", logs = "gdp_pc") 

# extract numeric columns from each element of a.out$impuations  
tst2       = llply(a.out$imputations, function(df) df[,sapply(df, is.numeric)]) 

# sum them up and divide by length to get mean
mean.right = Reduce("+", tst2)/length(tst2)

# compute fixed columns and cbind with mean.right
left.side  = a.out$imputations[[1]][1:2]
mean0      = cbind(left.side,mean.right) 
4 голосов
/ 12 августа 2011

Если я правильно понимаю ваш вопрос, то вам придется пройти долгий путь:

#set up some data:
dfr1<-data.frame(a=c(1,2.5,3), b=c(9.0,9,9))
dfr2<-data.frame(a=c(5,2,5), b=c(6,5,4))
tst<-list(dfr1, dfr2)
#since all variables are numerical, use a threedimensional array
tst2<-array(do.call(c, lapply(tst, unlist)), dim=c(nrow(tst[[1]]), ncol(tst[[1]]), length(tst)))
#To see where you're at:
tst2
#rowMeans for a threedimensional array and dims=2 does the mean over the last dimension
result<-data.frame(rowMeans(tst2, dims=2))
rownames(result)<-rownames(tst[[1]])
colnames(result)<-colnames(tst[[1]])
#display the full result
result

НТН.

1 голос
/ 09 апреля 2013

После многих попыток я нашел достаточно быстрый способ вычисления средних значений ячеек по нескольким фреймам данных.

# First create an empty data frame for storing the average imputed values. This
# data frame will have the same dimensions of the original one

imp.df <- df

# Then create an array with the first two dimensions of the original data frame and
# the third dimension given by the number of imputations

a <- array(NA, dim=c(nrow(imp.df), ncol(imp.df), length(a.out$imputations)))

# Then copy each imputation in each "slice" of the array

for (z in 1:length(a.out$imputations)) {
a[,,z] <- as.matrix(a.out$imputations[[z]])
}

# Finally, for each cell, replace the actual value with the mean across all 
# "slices" in the array

for (i in 1:dim(a)[1]) {
  for (j in 1:dim(a)[2]) {
imp.df[i, j] <- mean(as.numeric(a[i, j,]))
    }}
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...