У меня огромный список имен генов, и я хотел бы сопоставить соответствующие идентификаторы генов с каждым именем. Я пытался использовать эту библиотеку R: org.Hs.eg.db
, но она создает больше идентификаторов, чем имен, что затрудняет сопоставление результатов вместе, особенно если список длинный.
Пример входного файла (7 имен генов):
RPS6KB2
PSME4
PDE4DIP
APMAP
TNRC18
PPP1R26
NAA20
Идеальный результат будет (7 идентификаторов):
6199
23198
9659
57136
84629
9858
51126
Токовый выход (8 идентификаторов !!):
6199
23198
9659
57136
27320 *undesired output ID*
84629
9858
51126
Любые предложения о том, как решить эту проблему? или использовать другие простые инструменты для выполнения требуемой задачи (идентификаторы генов карты)?
Это код, который я использую:
library("org.Hs.eg.db") #load the library
input <- read.csv("myfile.csv",TRUE,",") #read input file
GeneCol = as.character(input$Gene.name) #access the column that has gene names in my file
output = unlist(mget(x = GeneCol, envir = org.Hs.egALIAS2EG, ifnotfound=NA)) #get IDs
write.csv(output, file = "GeneIDs.csv") #write the list of IDs to a CSV file