Biostrings :: getPromoterSeq, возвращающий несколько последовательностей для идентификатора гена запроса - PullRequest
0 голосов
/ 27 февраля 2020

Я хочу скачать промоторные последовательности (3 Кб вверх по течению от стартового сайта) нескольких генов Arabidopsis thaliana.

library(tidyverse)
library(Biostrings)
library(TxDb.Athaliana.BioMart.plantsmart28)
library(BSgenome.Athaliana.TAIR.TAIR9)

seqlevels(TxDb.Athaliana.BioMart.plantsmart28) <- seqlevels(BSgenome.Athaliana.TAIR.TAIR9)

genes <- c("AT1G01010","AT1G01020","AT5G67480","AT5G67500")

sequences <- transcriptsBy(TxDb.Athaliana.BioMart.plantsmart28, 
                               by="gene")[genes] %>%
  getPromoterSeq(.,
                 Athaliana,
                 upstream=3000,
                 downstream=0)

Однако есть пара любопытных результатов:

> sequences
DNAStringSetList of length 4
[["AT1G01010"]] AT1G01010=AAAAAAGCTATCGCCTCGACGATGCTCTATTTCTATCCTTGTAGCACACATTTTGGCA...
[["AT1G01020"]] AT1G01020=TTTTTTTTTCCGACATGTTTCTTGATGTTCATCATCATTAGGCTTTTGTCACCATGTT...
[["AT5G67480"]] AT5G67480=TAATTAACCATGGAGTTAGACTGCTAGATCATATGCAGACAATCATTAGGTTTCTAAA...
[["AT5G67500"]] AT5G67500=TCCATATCAACCAAGTCTAGACCTTTCTAATCAACTGCTAAAGTCTGTATTCGCTTAG...

> sequences@unlistData
  A DNAStringSet instance of length 7
    width seq                                                      names               
[1]  3000 AAAAAAGCTATCGCCTCGACGATGCTC...GCTGACTTCACTGTCTTCCTCCCTCC AT1G01010
[2]  3000 TTTTTTTTTCCGACATGTTTCTTGATG...CCCATTTAGGGTTAAAACAGTAGCCC AT1G01020
[3]  3000 TTTTTTTTTCCGACATGTTTCTTGATG...CCCATTTAGGGTTAAAACAGTAGCCC AT1G01020
[4]  3000 TAATTAACCATGGAGTTAGACTGCTAG...CGCAGGTGGGTGTCTCTGTTGATGAT AT5G67480
[5]  3000 ACATGGAGATCGATCAGACCAAGAACA...TAGAGCATTGATTGATTCTTGTTCTT AT5G67480
[6]  3000 TCCATATCAACCAAGTCTAGACCTTTC...TATTGGCTTCGCTATTTATTTTCGTC AT5G67500
[7]  3000 TAGACCTTTCTAATCAACTGCTAAAGT...ATTTTCGTCTACCACGAGAAAAACAA AT5G67500

Может кто-нибудь сказать мне, почему я получаю несколько последовательностей во втором случае, в то время как первый дает мне 4 последовательности для 4 запрашиваемых генов?

Кроме того, я обнаружил, что эти последовательности не получают точно сопоставьте начальную и конечную позиции, доступные на веб-сайте TAIR.

Есть ли способ получить последовательности точно в восходящем / нисходящем направлении в TSS (последовательность ATG) с использованием пакета Biostrings?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...