Широкий и длинный многократные измерения каждый раз - PullRequest
15 голосов
/ 13 марта 2012

Я знаю, что от слишком большого к длинному спросили здесь слишком много раз, но я не могу понять, как преобразовать следующее в длинный формат.Снять я даже попросил один из широких к длинным с 2 повторными мерами на SO.Я расстраиваюсь из-за того, что не могу конвертировать свои данные.Как я могу превратить это (переменный порядок не имеет значения):

      id trt    work.T1   play.T1   talk.T1   total.T1    work.T2    play.T2   talk.T2  total.T2
1   x1.1 cnt 0.34434350 0.7841665 0.1079332 0.88803151 0.64836951 0.87954320 0.7233519 0.5630988
2   x1.2  tr 0.06132255 0.8426960 0.3338658 0.04685878 0.23478670 0.19711687 0.5164015 0.7617968
3   x1.3  tr 0.36897981 0.1834721 0.3241316 0.76904051 0.07629721 0.06945971 0.4118995 0.7452974
4   x1.4  tr 0.40759356 0.5285396 0.5654258 0.23022542 0.92309504 0.15733957 0.4132653 0.7078273
5   x1.5 cnt 0.91433676 0.7029476 0.2031782 0.31518412 0.14721669 0.33345678 0.7620444 0.9868082
6   x1.6  tr 0.88870525 0.9132728 0.2197045 0.28266959 0.82239037 0.18006177 0.2591765 0.4516309
7   x1.7 cnt 0.98373218 0.2591739 0.6331153 0.71319565 0.41351839 0.14648269 0.7631898 0.1182174
8   x1.8  tr 0.47719528 0.7926248 0.3525205 0.86213792 0.61252061 0.29057544 0.9824048 0.2386353
9   x1.9  tr 0.69350823 0.6144696 0.8568732 0.10632352 0.06812050 0.93606889 0.6701190 0.4705228
10 x1.10 cnt 0.42574646 0.7006205 0.9507216 0.55032776 0.90413220 0.10246047 0.5899279 0.3523231

в это:

      id trt time       work       play      talk      total
1   x1.1 cnt    1 0.34434350 0.78416653 0.1079332 0.88803151
2   x1.2  tr    1 0.06132255 0.84269599 0.3338658 0.04685878
3   x1.3  tr    1 0.36897981 0.18347215 0.3241316 0.76904051
4   x1.4  tr    1 0.40759356 0.52853960 0.5654258 0.23022542
5   x1.5 cnt    1 0.91433676 0.70294755 0.2031782 0.31518412
6   x1.6  tr    1 0.88870525 0.91327276 0.2197045 0.28266959
7   x1.7 cnt    1 0.98373218 0.25917392 0.6331153 0.71319565
8   x1.8  tr    1 0.47719528 0.79262477 0.3525205 0.86213792
9   x1.9  tr    1 0.69350823 0.61446955 0.8568732 0.10632352
10 x1.10 cnt    1 0.42574646 0.70062053 0.9507216 0.55032776
11  x1.1 cnt    2 0.64836951 0.87954320 0.7233519 0.56309884
12  x1.2  tr    2 0.23478670 0.19711687 0.5164015 0.76179680
13  x1.3  tr    2 0.07629722 0.06945971 0.4118995 0.74529740
14  x1.4  tr    2 0.92309504 0.15733957 0.4132653 0.70782726
15  x1.5 cnt    2 0.14721669 0.33345678 0.7620444 0.98680824
16  x1.6  tr    2 0.82239038 0.18006177 0.2591765 0.45163091
17  x1.7 cnt    2 0.41351839 0.14648269 0.7631898 0.11821741
18  x1.8  tr    2 0.61252061 0.29057544 0.9824048 0.23863532
19  x1.9  tr    2 0.06812050 0.93606889 0.6701190 0.47052276
20 x1.10 cnt    2 0.90413220 0.10246047 0.5899279 0.35232307

Набор данных

id <- paste('x', "1.", 1:10, sep="")
set.seed(10)
DF <- data.frame(id, trt=sample(c('cnt', 'tr'), 10, T), work.T1=runif(10),
    play.T1=runif(10), talk.T1=runif(10), total.T1=runif(10),
    work.T2=runif(10), play.T2=runif(10), talk.T2=runif(10), 
    total.T2=runif(10))

Заранее спасибо!

РЕДАКТИРОВАТЬ: Что-то пошло не так, когда я использовал set.seed (конечно, я сделал ошибку).Фактические данные выше - это не те данные, которые вы получите, если используете set.seed(10).Я оставляю ошибку для исторической точности, и она действительно не влияет на решения, которые дали люди.

Ответы [ 5 ]

9 голосов
/ 13 марта 2012

Это довольно близко, и изменение имен столбцов должно быть в вашем наборе навыков:

reshape(DF, 
       varying=c(work= c(3, 7), play= c(4,8), talk= c(5,9), total= c(6,10) ), 
       direction="long")

РЕДАКТИРОВАТЬ: Добавление версии, которая является почти точным решением:

reshape(DF, varying=list(work= c(3, 7), play= c(4,8), talk= c(5,9), total= c(6,10) ), 
        v.names=c("Work", "Play", "Talk", "Total"), 
          # that was needed after changed 'varying' arg to a list to allow 'times' 
        direction="long",  
        times=1:2,        # substitutes number for T1 and T2
        timevar="times")  # to name the time col
7 голосов
/ 19 сентября 2015

Самый краткий способ - использовать tidyr в сочетании с библиотекой dplyr.

library(tidyr)
library(dplyr)
result <- DF %>%
  # transfer to 'long' format
  gather(loc, value, work.T1:total.T2) %>%
  # separate the column into location and time
  separate(loc, into = c('loc', 'time'), '\\.') %>%
  # transfer to 'short' format
  spread(loc, value) %>%
  mutate(time = as.numeric(substr(time, 2, 2))) %>%
  arrange(time)

Tidyr разработан специально, чтобы привести данные в порядок.

3 голосов
/ 15 марта 2012

Если вы действительно не хотите, чтобы "T" в переменной "time" в выходных данных, не могли бы вы просто сделать следующее?

names(DF) = sub("T", "", names(DF))
reshape(DF, direction="long", varying=3:10)

Или без изменения names(DF),Вы можете просто установить аргумент sep=, чтобы включить "T":

reshape(DF, direction="long", varying=3:10, sep=".T")

Я немного растерялся.Как заметил Бен Болкер a в своем комментарии , ваш «код набора данных» не дает те же цифры, что и у вас.Кроме того, выходные данные DWin и mine идеально совпадают, но они не совпадают с выходными данными "into this", которые есть у вас в исходном вопросе.

Я проверил это, создав один фрейм данных с именем "DWin" с помощьюего результаты, и один фрейм данных с именем «мой» с моими результатами и сравнил их, используя DWin == mine.

Можете ли вы убедиться, что полученный нами результат действительно соответствует вашим потребностям?

3 голосов
/ 13 марта 2012

Как ни странно, мне кажется, что я не получаю те же цифры, что и вы (что я и должен, поскольку мы оба использовали set.seed(10)?), Но в остальном это, похоже, помогает:

library(reshape)  #this might work with reshape2 as well, I haven't tried ...
DF2 <- melt(DF,id.vars=1:2)
## split 'activity.time' label into two separate variables
DF3 <- cbind(DF2,
             colsplit(as.character(DF2$variable),"\\.",
                      names=c("activity","time")))
## rename time, reorder factors:
DF4 <- transform(DF3,
                 time=as.numeric(gsub("^T","",time)),
                 activity=factor(activity,
                   levels=c("work","play","talk","total")),
                 id=factor(id,levels=paste("x1",1:10,sep=".")))
## reshape back to wide
DF5 <- cast(subset(DF4,select=-variable),id+trt+time~activity)
## reorder
DF6 <- with(DF5,DF5[order(time,id),])

Это сложнее, чем ответ @ DWin, но может быть (?) Более общим.

0 голосов
/ 15 марта 2012

Другой способ решения проблемы, который требует очень мало кода, но, вероятно, будет медленнее:

DF.1 <- DF[, 1:2]
DF.2 <- DF[, 3:6] 
DF.3 <- DF[, 7:10]

names(DF.2) <- names(DF.3) <- unlist(strsplit(names(DF.2), ".", fixed=T))[c(T,F)]
time <- rep(1:2, each=nrow(DF.1))
data.frame(rbind(DF.1, DF.1), time, rbind(DF.2, DF.3))
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...