Question

У меня есть список идентично отсортированных кадров данных. Более конкретно, это вмененные кадры данных, которые я получаю после выполнения нескольких вменений с помощью пакета AmeliaII. Теперь я хочу создать новый фрейм данных, идентичный по структуре, но содержащий средние значения ячеек, рассчитанных по фреймам данных.

Способ, которым я сейчас достигаю, следующий:

## do the Amelia run ------------------------------------------------------------

a.out <- amelia(merged, m=5, ts="Year", cs ="GEO",polytime=1)

## Calculate the output statistics ----------------------------------------------
left.side <- a.out$imputations[[1]][,1:2]
a.out.ncol <- ncol(a.out$imputations[[1]])

a <- a.out$imputations[[1]][,3:a.out.ncol]
b <- a.out$imputations[[2]][,3:a.out.ncol]
c <- a.out$imputations[[3]][,3:a.out.ncol]
d <- a.out$imputations[[4]][,3:a.out.ncol]
e <- a.out$imputations[[5]][,3:a.out.ncol]

# Calculate the Mean of the matrices
mean.right <- apply(abind(a,b,c,d,e,f,g,h,i,j,along=3),c(1,2),mean) 

# recombine factors with values
mean <- cbind(left.side,mean.right)

Я полагаю, что есть гораздо лучший способ сделать это, используя apply, plyr или тому подобное, но как R Newbie я действительно немного потерян здесь У вас есть предложения, как это сделать?

Ramnath · Answer 1 · 12 августа 2011

Вот альтернативный подход с использованием Reduce и plyr::llply

dfr1 <- data.frame(a = c(1,2.5,3), b = c(9.0,9,9), c = letters[1:3])
dfr2 <- data.frame(a = c(5,2,5), b = c(6,5,4), c = letters[1:3])

tst = list(dfr1, dfr2)

require(plyr)
tst2 = llply(tst, function(df) df[,sapply(df, is.numeric)]) # strip out non-numeric cols
ans  = Reduce("+", tst2)/length(tst2)

РЕДАКТИРОВАТЬ.Вы можете значительно упростить свой код и выполнить то, что вы хотите, в 5 строках кода R.Вот пример использования пакета Amelia.

library(Amelia)
data(africa)

# carry out imputations
a.out      = amelia(x = africa, cs = "country", ts = "year", logs = "gdp_pc") 

# extract numeric columns from each element of a.out$impuations  
tst2       = llply(a.out$imputations, function(df) df[,sapply(df, is.numeric)]) 

# sum them up and divide by length to get mean
mean.right = Reduce("+", tst2)/length(tst2)

# compute fixed columns and cbind with mean.right
left.side  = a.out$imputations[[1]][1:2]
mean0      = cbind(left.side,mean.right)

Nick Sabbe · Answer 2 · 12 августа 2011

Если я правильно понимаю ваш вопрос, то вам придется пройти долгий путь:

#set up some data:
dfr1<-data.frame(a=c(1,2.5,3), b=c(9.0,9,9))
dfr2<-data.frame(a=c(5,2,5), b=c(6,5,4))
tst<-list(dfr1, dfr2)
#since all variables are numerical, use a threedimensional array
tst2<-array(do.call(c, lapply(tst, unlist)), dim=c(nrow(tst[[1]]), ncol(tst[[1]]), length(tst)))
#To see where you're at:
tst2
#rowMeans for a threedimensional array and dims=2 does the mean over the last dimension
result<-data.frame(rowMeans(tst2, dims=2))
rownames(result)<-rownames(tst[[1]])
colnames(result)<-colnames(tst[[1]])
#display the full result
result

НТН.

Mattia · Answer 3 · 09 апреля 2013

После многих попыток я нашел достаточно быстрый способ вычисления средних значений ячеек по нескольким фреймам данных.

# First create an empty data frame for storing the average imputed values. This
# data frame will have the same dimensions of the original one

imp.df <- df

# Then create an array with the first two dimensions of the original data frame and
# the third dimension given by the number of imputations

a <- array(NA, dim=c(nrow(imp.df), ncol(imp.df), length(a.out$imputations)))

# Then copy each imputation in each "slice" of the array

for (z in 1:length(a.out$imputations)) {
a[,,z] <- as.matrix(a.out$imputations[[z]])
}

# Finally, for each cell, replace the actual value with the mean across all 
# "slices" in the array

for (i in 1:dim(a)[1]) {
  for (j in 1:dim(a)[2]) {
imp.df[i, j] <- mean(as.numeric(a[i, j,]))
    }}

Рассчитать статистику (например, среднее) по ячейкам идентичных фреймов данных

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Рассчитать статистику (например, среднее) по ячейкам идентичных фреймов данных

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов