Как поместить информацию, полученную при помощи функции преобразования пакета, обратно в мой исходный фрейм данных в R - PullRequest
1 голос
/ 20 мая 2011

У меня есть data.frame в формате панели (страна-год), и мне нужно вычислять среднее значение переменной по стране и каждые пять лет.Поэтому я просто использовал функцию cast из пакета «reshape», и это сработало.Теперь мне нужно поместить эту информацию (среднее значение за пятилетие) в старый data.frame, чтобы я мог запустить некоторые регрессии.Как я могу это сделать?Ниже я привожу пример, чтобы проиллюстрировать то, что я хочу:

set.seed(2)
fake= data.frame(y=rnorm(20), x=rnorm(20), country=rep(letters[1:2], each=10), year=rep(1:10,2), quinquenio= rep(rep(1:2, each=5),2))

fake.m = melt.data.frame(fake, id.vars=c("country", "year", "quinquenio"))
cast(fake.m, country ~ quinquenio, mean, subset=variable=="x", na.rm=T)

Теперь все в порядке, и я получаю то, что хотел: среднее значение x и y по стране и пятилетним годам.Теперь я хотел бы вернуть их в фальшивку data.frame, например:

         y            x      country year quinquenio  mean.x
1  -0.89691455  2.090819205       a    1          1    0.8880242
2   0.18484918 -1.199925820       a    2          1    0.8880242
3   1.58784533  1.589638200       a    3          1    0.8880242
4  -1.13037567  1.954651642       a    4          1    0.8880242
5  -0.08025176  0.004937777       a    5          1    0.8880242
6   0.13242028 -2.451706388       a    6          2    -0.2978375
7   0.70795473  0.477237303       a    7          2    -0.2978375
8  -0.23969802 -0.596558169       a    8          2    -0.2978375
9   1.98447394  0.792203270       a    9          2    -0.2978375
10 -0.13878701  0.289636710       a   10          2    -0.2978375
11  0.41765075  0.738938604       b    1          1    0.2146461
12  0.98175278  0.318960401       b    2          1    0.2146461
13 -0.39269536  1.076164354       b    3          1    0.2146461
14 -1.03966898 -0.284157720       b    4          1    0.2146461
15  1.78222896 -0.776675274       b    5          1    0.2146461
16 -2.31106908 -0.595660499       b    6          2    -0.8059598
17  0.87860458 -1.725979779       b    7          2    -0.8059598
18  0.03580672 -0.902584480       b    8          2    -0.8059598
19  1.01282869 -0.559061915       b    9          2    -0.8059598
20  0.43226515 -0.246512567       b   10          2    -0.8059598

Я ценю любые советы в правильном направлении.Заранее спасибо.

пс .: причина, по которой мне это нужно, заключается в том, что я проведу регрессию с пятилетними данными, а для некоторых переменных (например, на душу населения) у меня есть информация за все годы, поэтому я решилусреднить их к 5 годам.

Ответы [ 2 ]

3 голосов
/ 20 мая 2011

Я уверен, что есть простой способ сделать это с изменением формы, но мой мозг по умолчанию принимает значение plyr first:

require(plyr)
ddply(fake, c("country", "quinquenio"), transform, mean.x = mean(x))

Это довольно хакерский, но один из способов использовать изменение формы с вашегопредыдущая работа:

zz <- cast(fake.m, country ~ quinquenio, mean, subset=variable=="x", na.rm=T)
merge(fake, melt(zz), by = c("country", "quinquenio"))

хотя я уверен, что должно быть лучшее решение.

2 голосов
/ 20 мая 2011

Вот более старый подход, использующий tapply, ave и with

fake$mean.x <- with(fake, unlist(tapply(x, list(country, quinquenio), ave)))
...