Я хочу скачать промоторные последовательности (3 Кб вверх по течению от стартового сайта) нескольких генов Arabidopsis thaliana.
library(tidyverse)
library(Biostrings)
library(TxDb.Athaliana.BioMart.plantsmart28)
library(BSgenome.Athaliana.TAIR.TAIR9)
seqlevels(TxDb.Athaliana.BioMart.plantsmart28) <- seqlevels(BSgenome.Athaliana.TAIR.TAIR9)
genes <- c("AT1G01010","AT1G01020","AT5G67480","AT5G67500")
sequences <- transcriptsBy(TxDb.Athaliana.BioMart.plantsmart28,
by="gene")[genes] %>%
getPromoterSeq(.,
Athaliana,
upstream=3000,
downstream=0)
Однако есть пара любопытных результатов:
> sequences
DNAStringSetList of length 4
[["AT1G01010"]] AT1G01010=AAAAAAGCTATCGCCTCGACGATGCTCTATTTCTATCCTTGTAGCACACATTTTGGCA...
[["AT1G01020"]] AT1G01020=TTTTTTTTTCCGACATGTTTCTTGATGTTCATCATCATTAGGCTTTTGTCACCATGTT...
[["AT5G67480"]] AT5G67480=TAATTAACCATGGAGTTAGACTGCTAGATCATATGCAGACAATCATTAGGTTTCTAAA...
[["AT5G67500"]] AT5G67500=TCCATATCAACCAAGTCTAGACCTTTCTAATCAACTGCTAAAGTCTGTATTCGCTTAG...
> sequences@unlistData
A DNAStringSet instance of length 7
width seq names
[1] 3000 AAAAAAGCTATCGCCTCGACGATGCTC...GCTGACTTCACTGTCTTCCTCCCTCC AT1G01010
[2] 3000 TTTTTTTTTCCGACATGTTTCTTGATG...CCCATTTAGGGTTAAAACAGTAGCCC AT1G01020
[3] 3000 TTTTTTTTTCCGACATGTTTCTTGATG...CCCATTTAGGGTTAAAACAGTAGCCC AT1G01020
[4] 3000 TAATTAACCATGGAGTTAGACTGCTAG...CGCAGGTGGGTGTCTCTGTTGATGAT AT5G67480
[5] 3000 ACATGGAGATCGATCAGACCAAGAACA...TAGAGCATTGATTGATTCTTGTTCTT AT5G67480
[6] 3000 TCCATATCAACCAAGTCTAGACCTTTC...TATTGGCTTCGCTATTTATTTTCGTC AT5G67500
[7] 3000 TAGACCTTTCTAATCAACTGCTAAAGT...ATTTTCGTCTACCACGAGAAAAACAA AT5G67500
Может кто-нибудь сказать мне, почему я получаю несколько последовательностей во втором случае, в то время как первый дает мне 4 последовательности для 4 запрашиваемых генов?
Кроме того, я обнаружил, что эти последовательности не получают точно сопоставьте начальную и конечную позиции, доступные на веб-сайте TAIR.
Есть ли способ получить последовательности точно в восходящем / нисходящем направлении в TSS (последовательность ATG) с использованием пакета Biostrings?