Оптимизация R: Как можно избежать цикла for в этой ситуации? - PullRequest
5 голосов
/ 25 марта 2010

Я пытаюсь сделать простое пересечение геномной дорожки в R, и сталкиваюсь с серьезными проблемами с производительностью, вероятно, связанными с моим использованием циклов for.

В этой ситуации у меня есть предопределенные окна с интервалами 100 бп, и я пытаюсь подсчитать, сколько каждого окна покрыто аннотациями в mylist. Графически это выглядит примерно так:

          0    100   200    300    400   500   600  
windows: |-----|-----|-----|-----|-----|-----|

mylist:    |-|   |-----------|

Итак, я написал код для этого, но он довольно медленный и стал узким местом в моем коде:

##window for each 100-bp segment    
windows <- numeric(6)

##second track
mylist = vector("list")
mylist[[1]] = c(1,20)
mylist[[2]] = c(120,320)


##do the intersection
for(i in 1:length(mylist)){
  st <- floor(mylist[[i]][1]/100)+1
  sp <- floor(mylist[[i]][2]/100)+1
  for(j in st:sp){       
    b <- max((j-1)*100, mylist[[i]][1])
    e <- min(j*100, mylist[[i]][2])
    windows[j] <- windows[j] + e - b + 1
  }
}

print(windows)
[1]  20  81 101  21   0   0

Естественно, это используется в наборах данных, которые намного больше, чем пример, который я привожу здесь. Посредством некоторого профилирования я вижу, что узкое место находится в циклах for, но моя неуклюжая попытка векторизовать его с помощью * apply функции привела к тому, что код выполняется на порядок медленнее.

Полагаю, я мог бы написать что-нибудь на C, но я бы хотел этого избежать, если это возможно. Кто-нибудь может предложить другой подход, который ускорит этот расчет?

Ответы [ 5 ]

6 голосов
/ 25 марта 2010

«Правильно», что нужно сделать, это использовать пакет bioconductor IRanges, который использует структуру данных IntervalTree для представления этих диапазонов.

Имея оба ваших объекта в своих IRanges объектах, вы могли бы использовать функцию findOverlaps для победы.

Получите это здесь:

http://www.bioconductor.org/packages/release/bioc/html/IRanges.html

Кстати, внутренняя часть пакета написана на C, так что он очень быстрый.

EDIT

Если подумать, это не так уж и много, как я полагаю (один вкладыш), но вам определенно следует начать использовать эту библиотеку, если вы вообще работаете с геномными интервалами (или другими типами) ... вам, вероятно, понадобится выполнить некоторые операции над множествами и все такое. Извините, у меня нет времени, чтобы дать точный ответ.

Я просто подумал, что важно показать вам эту библиотеку.

4 голосов
/ 26 марта 2010

Хорошо, я потратил слишком много времени на это, и все равно получил ускорение в 3 раза. Кто-нибудь может победить это?

код:

my <- do.call(rbind,mylist)
myFloor <- floor(my/100)
myRem <- my%%100
#Add intervals, over counting interval endpoints
counts <- table(do.call(c,apply(myFloor,1,function(r) r[1]:r[2])))
windows[as.numeric(names(counts))+1] <- counts*101

#subtract off lower and upper endpoints
lowerUncovered <- tapply(myRem[,1],myFloor[,1],sum)
windows[as.numeric(names(lowerUncovered))+1]  <-  windows[as.numeric(names(lowerUncovered))+1]  - lowerUncovered
upperUncovered <- tapply(myRem[,2],myFloor[,2],function(x) 100*length(x) - sum(x))
windows[as.numeric(names(upperUncovered))+1]  <-  windows[as.numeric(names(upperUncovered))+1] - upperUncovered

Тест:

mylist = vector("list")
for(i in 1:20000){
    d <- round(runif(1,,500))
    mylist[[i]] <- c(d,d+round(runif(1,,700)))
}

windows <- numeric(200)


new_code <-function(){
    my <- do.call(rbind,mylist)
    myFloor <- floor(my/100)
    myRem <- my%%100
    counts <- table(do.call(c,apply(myFloor,1,function(r) r[1]:r[2])))
    windows[as.numeric(names(counts))+1] <- counts*101

    lowerUncovered <- tapply(myRem[,1],myFloor[,1],sum)
    windows[as.numeric(names(lowerUncovered))+1]  <-  windows[as.numeric(names(lowerUncovered))+1]  - lowerUncovered

    upperUncovered <- tapply(myRem[,2],myFloor[,2],function(x) 100*length(x) - sum(x))
    windows[as.numeric(names(upperUncovered))+1]  <-  windows[as.numeric(names(upperUncovered))+1] - upperUncovered

    #print(windows)
}


#old code
old_code <- function(){
    for(i in 1:length(mylist)){
        st <- floor(mylist[[i]][1]/100)+1
        sp <- floor(mylist[[i]][2]/100)+1
        for(j in st:sp){       
            b <- max((j-1)*100, mylist[[i]][1])
            e <- min(j*100, mylist[[i]][2])
            windows[j] <- windows[j] + e - b + 1
        }
    }
    #print(windows)
}

system.time(old_code())
system.time(new_code())

Результат:

> system.time(old_code())
   user  system elapsed 
  2.403   0.021   2.183 
> system.time(new_code())
   user  system elapsed 
  0.739   0.033   0.588 

Очень расстраивает, что системное время в основном равно 0, но наблюдаемое время так велико. Бьюсь об заклад, если бы вы пошли на C, вы бы получили ускорение в 50-100 раз.

4 голосов
/ 25 марта 2010

Так что я не совсем уверен, почему третье и четвертое окна не равны 100 и 20, потому что это будет иметь больше смысла для меня. Вот один вкладыш для такого поведения:

Reduce('+', lapply(mylist, function(x) hist(x[1]:x[2], breaks = (0:6) * 100, plot = F)$counts)) 

Обратите внимание, что вам нужно указать верхнюю границу в breaks, но не составит труда сделать еще один проход, чтобы получить его, если вы не знаете его заранее.

1 голос
/ 25 марта 2010

Я думаю, я сделал это намного сложнее ... System.time не помог мне в оценке производительности в таком небольшом наборе данных.

windows <- numeric(6)

mylist = vector("list")
mylist[[1]] = c(1,20)
mylist[[2]] = c(120,320)


library(plyr)

l_ply(mylist, function(x) {
sapply((floor(x[1]/100)+1) : (floor(x[2]/100)+1), function(z){
    eval.parent(parse(text=paste("windows[",z,"] <- ", 
        min(z*100, x[2]) - max((z-1)*100, x[1]) + 1,sep="")),sys.nframe())
    })          
})

print(windows)

EDIT

Модификация для устранения eval

g <- llply(mylist, function(x) {
ldply((floor(x[1]/100)+1) : (floor(x[2]/100)+1), function(z){
        t(matrix(c(z,min(z*100, x[2]) - max((z-1)*100, x[1]) + 1),nrow=2))
    })          
})

for(i in 1:length(g)){
    windows[unlist(g[[i]][1])] <- unlist(g[[i]][2])
}
0 голосов
/ 25 марта 2010

У меня нет блестящей идеи, но вы можете избавиться от внутреннего цикла и немного ускорить процесс. Обратите внимание, что если окно полностью падает с интервалом mylist, вам просто нужно добавить 100 к соответствующему элементу windows. Таким образом, только st -й и sp -й окна нуждаются в особой обработке.

  windows <- numeric(100)
  for(i in 1:length(mylist)){ 
    win <- mylist[[i]]         # for cleaner code
    st <- floor(win[1]/100)+1 
    sp <- floor(win[2]/100)+1 
    # start and stop are within the same window
    if (sp == st){
      windows[st] <- windows[st] + (win[2]%%100) - (win[1]%%100) +1 
    }
    # start and stop are in separate windows - take care of edges
    if (sp > st){
      windows[st] <- windows[st] + 100 - (win[1]%%100) + 1
      windows[sp] <- windows[sp] + (win[2]%%100)
    }
    # windows completely inside win
    if (sp > st+1){
      windows[(st+1):(sp-1)] <- windows[(st+1):(sp-1)] + 100
    }       
  }

Я создал большой список:

  cuts <- sort(sample(1:10000, 70))  # random interval endpoints
  mylist <- split(cuts, gl(35,2))

и получил 1,08 с за 1000 повторов этой версии против 1,72 с за 1000 повторов для оригинала. Для реальных данных ускорение будет зависеть от того, будут ли интервалы в mylist намного больше 100 или нет.

Кстати, можно переписать внутренний цикл как отдельную функцию, а затем lapply перебрать mylist, но это не заставит его работать быстрее.

...