Получить идентификаторы генов для списка имен генов в R - PullRequest
0 голосов
/ 25 июня 2018

У меня огромный список имен генов, и я хотел бы сопоставить соответствующие идентификаторы генов с каждым именем. Я пытался использовать эту библиотеку R: org.Hs.eg.db, но она создает больше идентификаторов, чем имен, что затрудняет сопоставление результатов вместе, особенно если список длинный.

Пример входного файла (7 имен генов):

RPS6KB2
PSME4
PDE4DIP
APMAP
TNRC18
PPP1R26
NAA20

Идеальный результат будет (7 идентификаторов):

6199
23198
9659
57136
84629
9858
51126

Токовый выход (8 идентификаторов !!):

6199
23198
9659
57136
27320 *undesired output ID*
84629
9858
51126

Любые предложения о том, как решить эту проблему? или использовать другие простые инструменты для выполнения требуемой задачи (идентификаторы генов карты)?

Это код, который я использую:

library("org.Hs.eg.db") #load the library

input <- read.csv("myfile.csv",TRUE,",") #read input file

GeneCol = as.character(input$Gene.name) #access the column that has gene names in my file

output = unlist(mget(x = GeneCol, envir = org.Hs.egALIAS2EG, ifnotfound=NA)) #get IDs

write.csv(output, file = "GeneIDs.csv") #write the list of IDs to a CSV file

1 Ответ

0 голосов
/ 25 июня 2018

используйте mapIds() в вашем пакете org.Hs.eg.db.Но причина, по которой вы видите 8 идентификаторов, заключается в том, что отображение между символами не 1: 1.Вам нужно будет выбрать стратегию для работы с такими несколькими картами.Кроме того, задавайте вопросы о пакетах Bioconductor на сайте поддержки Bioconductor https://support.bioconductor.org.

Вот полный пример (обратите внимание, что мне не нужен ваш файл 'myfile.csv' для его запуска, поэтомулегко воспроизводить)

library(org.Hs.eg.db)
symbol <- c(
    "RPS6KB2", "PSME4", "PDE4DIP", "APMAP", "TNRC18",
    "PPP1R26", "NAA20"
)
mapIds(org.Hs.eg.db, symbol, "ENTREZID", "SYMBOL")

Выход

> mapIds(org.Hs.eg.db, symbol, "ENTREZID", "SYMBOL")
'select()' returned 1:1 mapping between keys and columns
RPS6KB2   PSME4 PDE4DIP   APMAP  TNRC18 PPP1R26   NAA20 
 "6199" "23198"  "9659" "57136" "84629"  "9858" "51126" 
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...