Question

Я пытаюсь сделать простое пересечение геномной дорожки в R, и сталкиваюсь с серьезными проблемами с производительностью, вероятно, связанными с моим использованием циклов for.

В этой ситуации у меня есть предопределенные окна с интервалами 100 бп, и я пытаюсь подсчитать, сколько каждого окна покрыто аннотациями в mylist. Графически это выглядит примерно так:

          0    100   200    300    400   500   600  
windows: |-----|-----|-----|-----|-----|-----|

mylist:    |-|   |-----------|

Итак, я написал код для этого, но он довольно медленный и стал узким местом в моем коде:

##window for each 100-bp segment    
windows <- numeric(6)

##second track
mylist = vector("list")
mylist[[1]] = c(1,20)
mylist[[2]] = c(120,320)


##do the intersection
for(i in 1:length(mylist)){
  st <- floor(mylist[[i]][1]/100)+1
  sp <- floor(mylist[[i]][2]/100)+1
  for(j in st:sp){       
    b <- max((j-1)*100, mylist[[i]][1])
    e <- min(j*100, mylist[[i]][2])
    windows[j] <- windows[j] + e - b + 1
  }
}

print(windows)
[1]  20  81 101  21   0   0

Естественно, это используется в наборах данных, которые намного больше, чем пример, который я привожу здесь. Посредством некоторого профилирования я вижу, что узкое место находится в циклах for, но моя неуклюжая попытка векторизовать его с помощью * apply функции привела к тому, что код выполняется на порядок медленнее.

Полагаю, я мог бы написать что-нибудь на C, но я бы хотел этого избежать, если это возможно. Кто-нибудь может предложить другой подход, который ускорит этот расчет?

Steve Lianoglou · Answer 1 · 25 марта 2010

«Правильно», что нужно сделать, это использовать пакет bioconductor IRanges, который использует структуру данных IntervalTree для представления этих диапазонов.

Имея оба ваших объекта в своих IRanges объектах, вы могли бы использовать функцию findOverlaps для победы.

Получите это здесь:

http://www.bioconductor.org/packages/release/bioc/html/IRanges.html

Кстати, внутренняя часть пакета написана на C, так что он очень быстрый.

EDIT

Если подумать, это не так уж и много, как я полагаю (один вкладыш), но вам определенно следует начать использовать эту библиотеку, если вы вообще работаете с геномными интервалами (или другими типами) ... вам, вероятно, понадобится выполнить некоторые операции над множествами и все такое. Извините, у меня нет времени, чтобы дать точный ответ.

Я просто подумал, что важно показать вам эту библиотеку.

Ian Fellows · Answer 2 · 26 марта 2010

Хорошо, я потратил слишком много времени на это, и все равно получил ускорение в 3 раза. Кто-нибудь может победить это?

код:

my <- do.call(rbind,mylist)
myFloor <- floor(my/100)
myRem <- my%%100
#Add intervals, over counting interval endpoints
counts <- table(do.call(c,apply(myFloor,1,function(r) r[1]:r[2])))
windows[as.numeric(names(counts))+1] <- counts*101

#subtract off lower and upper endpoints
lowerUncovered <- tapply(myRem[,1],myFloor[,1],sum)
windows[as.numeric(names(lowerUncovered))+1]  <-  windows[as.numeric(names(lowerUncovered))+1]  - lowerUncovered
upperUncovered <- tapply(myRem[,2],myFloor[,2],function(x) 100*length(x) - sum(x))
windows[as.numeric(names(upperUncovered))+1]  <-  windows[as.numeric(names(upperUncovered))+1] - upperUncovered

Тест:

mylist = vector("list")
for(i in 1:20000){
    d <- round(runif(1,,500))
    mylist[[i]] <- c(d,d+round(runif(1,,700)))
}

windows <- numeric(200)


new_code <-function(){
    my <- do.call(rbind,mylist)
    myFloor <- floor(my/100)
    myRem <- my%%100
    counts <- table(do.call(c,apply(myFloor,1,function(r) r[1]:r[2])))
    windows[as.numeric(names(counts))+1] <- counts*101

    lowerUncovered <- tapply(myRem[,1],myFloor[,1],sum)
    windows[as.numeric(names(lowerUncovered))+1]  <-  windows[as.numeric(names(lowerUncovered))+1]  - lowerUncovered

    upperUncovered <- tapply(myRem[,2],myFloor[,2],function(x) 100*length(x) - sum(x))
    windows[as.numeric(names(upperUncovered))+1]  <-  windows[as.numeric(names(upperUncovered))+1] - upperUncovered

    #print(windows)
}


#old code
old_code <- function(){
    for(i in 1:length(mylist)){
        st <- floor(mylist[[i]][1]/100)+1
        sp <- floor(mylist[[i]][2]/100)+1
        for(j in st:sp){       
            b <- max((j-1)*100, mylist[[i]][1])
            e <- min(j*100, mylist[[i]][2])
            windows[j] <- windows[j] + e - b + 1
        }
    }
    #print(windows)
}

system.time(old_code())
system.time(new_code())

Результат:

> system.time(old_code())
   user  system elapsed 
  2.403   0.021   2.183 
> system.time(new_code())
   user  system elapsed 
  0.739   0.033   0.588

Очень расстраивает, что системное время в основном равно 0, но наблюдаемое время так велико. Бьюсь об заклад, если бы вы пошли на C, вы бы получили ускорение в 50-100 раз.

Jonathan Chang · Answer 3 · 25 марта 2010

Так что я не совсем уверен, почему третье и четвертое окна не равны 100 и 20, потому что это будет иметь больше смысла для меня. Вот один вкладыш для такого поведения:

Reduce('+', lapply(mylist, function(x) hist(x[1]:x[2], breaks = (0:6) * 100, plot = F)$counts))

Обратите внимание, что вам нужно указать верхнюю границу в breaks, но не составит труда сделать еще один проход, чтобы получить его, если вы не знаете его заранее.

George Dontas · Answer 4 · 25 марта 2010

Я думаю, я сделал это намного сложнее ... System.time не помог мне в оценке производительности в таком небольшом наборе данных.

windows <- numeric(6)

mylist = vector("list")
mylist[[1]] = c(1,20)
mylist[[2]] = c(120,320)


library(plyr)

l_ply(mylist, function(x) {
sapply((floor(x[1]/100)+1) : (floor(x[2]/100)+1), function(z){
    eval.parent(parse(text=paste("windows[",z,"] <- ", 
        min(z*100, x[2]) - max((z-1)*100, x[1]) + 1,sep="")),sys.nframe())
    })          
})

print(windows)

EDIT

Модификация для устранения eval

g <- llply(mylist, function(x) {
ldply((floor(x[1]/100)+1) : (floor(x[2]/100)+1), function(z){
        t(matrix(c(z,min(z*100, x[2]) - max((z-1)*100, x[1]) + 1),nrow=2))
    })          
})

for(i in 1:length(g)){
    windows[unlist(g[[i]][1])] <- unlist(g[[i]][2])
}

Aniko · Answer 5 · 25 марта 2010

У меня нет блестящей идеи, но вы можете избавиться от внутреннего цикла и немного ускорить процесс. Обратите внимание, что если окно полностью падает с интервалом mylist, вам просто нужно добавить 100 к соответствующему элементу windows. Таким образом, только st -й и sp -й окна нуждаются в особой обработке.

  windows <- numeric(100)
  for(i in 1:length(mylist)){ 
    win <- mylist[[i]]         # for cleaner code
    st <- floor(win[1]/100)+1 
    sp <- floor(win[2]/100)+1 
    # start and stop are within the same window
    if (sp == st){
      windows[st] <- windows[st] + (win[2]%%100) - (win[1]%%100) +1 
    }
    # start and stop are in separate windows - take care of edges
    if (sp > st){
      windows[st] <- windows[st] + 100 - (win[1]%%100) + 1
      windows[sp] <- windows[sp] + (win[2]%%100)
    }
    # windows completely inside win
    if (sp > st+1){
      windows[(st+1):(sp-1)] <- windows[(st+1):(sp-1)] + 100
    }       
  }

Я создал большой список:

  cuts <- sort(sample(1:10000, 70))  # random interval endpoints
  mylist <- split(cuts, gl(35,2))

и получил 1,08 с за 1000 повторов этой версии против 1,72 с за 1000 повторов для оригинала. Для реальных данных ускорение будет зависеть от того, будут ли интервалы в mylist намного больше 100 или нет.

Кстати, можно переписать внутренний цикл как отдельную функцию, а затем lapply перебрать mylist, но это не заставит его работать быстрее.

Оптимизация R: Как можно избежать цикла for в этой ситуации?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 5 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Оптимизация R: Как можно избежать цикла for в этой ситуации?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 5 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы