Есть ли способ получить доступ к определенной c кодирующей последовательности представляющего интерес гена на ENSEMBL в R? - PullRequest
2 голосов
/ 11 марта 2020

Я пытаюсь найти способ получить кодирующую последовательность (CDS) интересующего специфического гена c и загрузить его в R. Я попытал счастья с пакетом BioMart, но он не позволяет мне указать какой ген меня интересует.

Любая помощь приветствуется!

Best, Heiko

1 Ответ

3 голосов
/ 11 марта 2020

Это должно работать:

library(biomaRt)
library(Biostrings)
mart <- useMart("ensembl", dataset="hsapiens_gene_ensembl")
cds_seq = getSequence(id = "APOE", 
                   type = "hgnc_symbol", 
                   seqType = "cdna", 
                   mart = mart)

Мы можем перевести CDS:

AAs = sapply(cds_seq$coding,function(i)if(i=="Sequence unavailable"){NA}else{translate(DNAString(i))})

Получить последовательность пептидов:

pep_seq = getSequence(id = "APOE", 
                   type = "hgnc_symbol", 
                   seqType = "peptide", 
                   mart = mart)

и проверить, что они похожи:

lapply(which(pep_seq$peptide!="Sequence unavailable"),function(i){
pep_seq$peptide[i] == as.character(AAs[[i]])
})

[[1]]
[1] TRUE

[[2]]
[1] TRUE

[[3]]
[1] TRUE

[[4]]
[1] TRUE

Если вы хотите получить refseq, выполните:

cds_seq = getSequence(id = "NM_000041", 
                      type = "refseq_mrna", 
                      seqType = "coding", 
                      mart = mart)
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...