Question

Не думаю, что об этом уже спрашивали, но есть ли способ объединить информацию списка с несколькими уровнями и неравномерной структурой в кадр данных «длинного» формата?

В частности:

library(XML)
library(plyr)
xml.inning <- "http://gd2.mlb.com/components/game/mlb/year_2009/month_05/day_02/gid_2009_05_02_chamlb_texmlb_1/inning/inning_5.xml"
xml.parse <- xmlInternalTreeParse(xml.inning)
xml.list <- xmlToList(xml.parse)
## $top$atbat
## $top$atbat$pitch
##             des              id            type               x               y 
##          "Ball"           "310"             "B"         "70.39"        "125.20"

Где следующая структура:

> llply(xml.list, function(x) llply(x, function(x) table(names(x))))
$top
$top$atbat
.attrs  pitch 
     1      4 
$top$atbat
.attrs  pitch 
     1      4 
$top$atbat
.attrs  pitch 
     1      5 
$bottom
$bottom$action
     b    des  event      o  pitch player      s 
     1      1      1      1      1      1      1 
$bottom$atbat
.attrs  pitch 
     1      5 
$bottom$atbat
.attrs  pitch 
     1      5 
$bottom$atbat
.attrs  pitch runner 
     1      5      1 
$bottom$atbat
.attrs  pitch runner 
     1      7      1 
$.attrs
$.attrs$num
character(0)
$.attrs$away_team
character(0)
$.attrs$

Я бы хотел получить фрейм данных из названного вектора из категории pitch ,вместе с собственно ( верх , атбат , низ ).Поэтому мне нужно игнорировать уровни, которые не вписываются в data.frame из-за разного количества столбцов.Примерно так:

   first second third    des     x
1    top  atbat pitch   Ball 70.29
2    top  atbat pitch Strike 69.24
3 bottom  atbat pitch    Out 67.22

Есть ли элегантный способ сделать это?Спасибо!

Joshua Ulrich · Answer 1 · 05 августа 2010

Я не знаю об элегантности, но это работает. Те, кто более знаком с plyr, могли бы предложить более общее решение.

cleanFun <- function(x) {
   a <- x[["atbat"]]
   b <- do.call(rbind,a[names(a)=="pitch"])
   c <- as.data.frame(b)
}
ldply(xml.list[c("top","bottom")], cleanFun)[,1:5]
     .id             des  id type      x
1    top            Ball 310    B  70.39
2    top   Called Strike 311    S 118.45
3    top   Called Strike 312    S  86.70
4    top In play, out(s) 313    X  79.83
5 bottom            Ball 335    B  15.45
6 bottom   Called Strike 336    S  77.25
7 bottom Swinging Strike 337    S  99.57
8 bottom            Ball 338    B 106.44
9 bottom In play, out(s) 339    X 134.76

apeescape · Answer 2 · 05 августа 2010

Функция .id для ldply() хороша, но кажется, что они перекрываются, когда вы делаете еще один ldply().

Вот довольно общая функция, которая использует rbind.fill():

aho <- ldply(llply(xml.list[[1]], function(x) ldply(x, function(x) rbind.fill(data.frame(t(x))))))
> aho[1:5,1:4]
     .id                                                       des   id type
1  pitch                                                      Ball  310    B
2  pitch                                             Called Strike  311    S
3  pitch                                             Called Strike  312    S
4  pitch                                           In play, out(s)  313    X
5 .attrs Alexei Ramirez lines out to second baseman Ian Kinsler.   <NA> <NA>

.id для второго ldply() отсутствует, потому что у нас уже был .id. Мы могли бы исправить это, назвав первый .id другим именем, но это не кажется последовательным.

aho2 <- ldply(llply(xml.list[[1]], function(x) {
  out <- ldply(x, function(x) rbind.fill(data.frame(t(x))))
  names(out)[1] <- ".id2"
  out
}))
> aho2[1:5,1:4]
    .id   .id2                                                       des   id
1 atbat  pitch                                                      Ball  310
2 atbat  pitch                                             Called Strike  311
3 atbat  pitch                                             Called Strike  312
4 atbat  pitch                                           In play, out(s)  313
5 atbat .attrs Alexei Ramirez lines out to second baseman Ian Kinsler.   <NA>

преобразование неравномерного иерархического списка во фрейм данных

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

преобразование неравномерного иерархического списка во фрейм данных

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы