Преобразование областей генома c в позиции генома c в R-кадре данных или объекте GenomicRanges - PullRequest
0 голосов
/ 23 марта 2020

У меня есть фрейм данных с некоторыми интервалами генома c и соответствующий охват в нескольких выборках:

       sample1   sample2   sample3
1:1-3    30        NA         NA
1:1-4    NA        40         35
1:4-5    35        NA         NA
1:5-7    NA        50         50
1:6-7    60        NA         NA 

Я хотел бы получить тот же фрейм данных, но для позиций генома c:

       sample1    sample2     sample3
1:1      30         40          35
1:2      30         40          35
1:3      30         40          35
1:4      35         40          35
1:5      35         50          50
1:6      60         50          50
1:7      60         50          50

Вы знаете, как я могу получить это? (Я также пытался преобразовать фрейм данных в объект GenomicRanges, но я все еще не знаю, как это сделать)

1 Ответ

1 голос
/ 23 марта 2020

Ваши данные, которые я прочитал:

tab = structure(list(sample1 = c(30L, NA, 35L, NA, 60L), sample2 = c(NA, 
40L, NA, 50L, NA), sample3 = c(NA, 35L, NA, 50L, NA)), class = "data.frame", row.names = c("1:1-3", 
"1:1-4", "1:4-5", "1:5-7", "1:6-7"))

Это зависит от размера вашего набора данных, поэтому это решение на основе GenomicRange:

library(GenomicRanges)
gr = GRanges(rownames(tab))
seq_range = range(gr)
W = width(seq_range)

COV = lapply(tab,function(i){
  i[is.na(i)] = 0
  coverage(gr,weight=i,width=W)
})

cov_samples = sapply(COV,function(i)as.matrix(i[seq_range]))
cov_samples
         sample1 sample2 sample3
[1,]      30      40      35
[2,]      30      40      35
[3,]      30      40      35
[4,]      35      40      35
[5,]      35      50      50
[6,]      60      50      50
[7,]      60      50      50

Теперь мы объединяем его с координаты:

final = data.frame(
seqnames=rep(as.character(seqnames(seq_range)),W),
pos =  unlist(lapply(W,seq,from=1)),
cov_samples)

  seqnames pos sample1 sample2 sample3
1        1   1      30      40      35
2        1   2      30      40      35
3        1   3      30      40      35
4        1   4      35      40      35
5        1   5      35      50      50
6        1   6      60      50      50
7        1   7      60      50      50
...