преобразование из идентификатора гена Ensembl в другой идентификатор - PullRequest
0 голосов
/ 30 августа 2018

Я унаследовал набор данных выходных данных RNAseq от Canis Lupus (собака). У меня есть идентификатор гена в формате Ensembl, в частности, они выглядят так: ENSCAFT00000001452.3. Я пытаюсь использовать bioMaRt, чтобы преобразовать их в более общий идентификатор и нуждаюсь в помощи. Я очень новичок в R и считаю себя довольно невежественным. Любая помощь, чтобы начать.

Можно ли преобразовать эти идентификаторы ансамбля в любой другой идентификатор ансамбля (например, для разных видов)? Могут ли эти ансамблевые идентификаторы быть преобразованы в RefSeq, GI Assecion #? Как

Начинается с этого:

library('biomaRt')

mart <- useDataset("hsapiens_gene_ensembl", useMart("ensembl"))

genes <- df$genes

....... потерял после этого. Спасибо за любую помощь. Райан

1 Ответ

0 голосов
/ 30 августа 2018

Вот пошаговый пример:

  1. Загрузить библиотеку biomaRt.

    library(biomaRt)
    
  2. В качестве входного запроса у нас есть Canis lupus famisis Идентификаторы транскрипта ансамбля ( обратите внимание, что они , а не Идентификаторы гена Ensembl ). Нам также нужно убрать точку + цифру (ы) с конца, которая используется для обозначения обновлений аннотации.

    tx <- c("ENSCAFT00000001452.3", "ENSCAFT00000001656.3")
    tx <- gsub("\\.\\d+$", "", tx)
    
  3. Теперь мы запрашиваем у базы данных идентификаторы транскрипта Ensembl в tx

    ensembl <- useEnsembl(biomart = "ensembl", dataset = "cfamiliaris_gene_ensembl")
    res <- getBM(
        attributes = c("ensembl_gene_id", "ensembl_transcript_id", "external_gene_name", "description"),
        filters = "ensembl_transcript_id",
        values = tx,
        mart = ensembl)
    res
    #ensembl_gene_id ensembl_transcript_id external_gene_name
    #1 ENSCAFG00000000934    ENSCAFT00000001452            COL14A1
    #2 ENSCAFG00000001086    ENSCAFT00000001656                MYC
    #                                                                   description
    #1               collagen type XIV alpha 1 chain [Source:VGNC Symbol;Acc:VGNC:51768]
    #2 MYC proto-oncogene, bHLH transcription factor [Source:VGNC Symbol;Acc:VGNC:43527]
    

Обратите внимание, что вы можете получить data.frame всех attributes для определенного mart с listAttributes(ensembl).

В дополнение к ссылке, которую @GordonShumway дает в приведенном выше комментарии, еще одно хорошее (и краткое) краткое изложение / введение в biomaRt можно найти на веб-сайтах Ensembl .

...