Столбец с конкретным значением R - PullRequest
0 голосов
/ 05 июля 2018

У меня есть фрейм данных из 3 столбцов (гены, varian_type и samples) и еще один из двух столбцов (пути и гены). Во втором у меня есть список генов в каждом пути. Итак, теперь я хотел бы создать новый фрейм данных из 4 столбцов (гены, вариант_типа, образцы и пути), который показывает путь или пути, в которых присутствует каждый ген. Есть кто-нибудь, кто может мне помочь? Заранее спасибо.

1)

     Hugo_Symbol    Variant_Type         Tumor_Sample_Barcode
1       ZAP70          SNP           TCGA-E9-A1RC-01A-11D-A159-09

2)

structure(list(circuit_names = c("hsa04014__44", "hsa04014__33", 
"hsa04014__37", "hsa04014__24", "hsa04014__26", "hsa04014__30"
), mutated = c("ZAP70,NF1,MAPK1,RAF1,CSF1R,RASGRP1,MAP2K1,MAP2K1,RASGRF1,RASGRF1,RASGRF1,RASGRF1,RASGRF1,NF1,PLCG1,PLCG1,PLCG1", 
"ZAP70,NF1,AKT3,CSF1R,BAD,RASGRP1,RASGRF1,RASGRF1,RASGRF1,RASGRF1,RASGRF1,PIK3R5,NF1,BCL2L1,PLCG1,PLCG1,PLCG1,AKT3", 
"ZAP70,NF1,AKT3,CSF1R,RASGRP1,RASGRF1,RASGRF1,RASGRF1,RASGRF1,RASGRF1,PIK3R5,NF1,PLCG1,PLCG1,PLCG1,FOXO4,AKT3", 
"ZAP70,NF1,CSF1R,RGL2,RASGRP1,RASGRF1,RASGRF1,RASGRF1,RASGRF1,RASGRF1,NF1,PLCG1,PLCG1,PLCG1", 
"ZAP70,NF1,CSF1R,RASGRP1,RASGRF1,RASGRF1,RASGRF1,RASGRF1,RASGRF1,NF1,PLCG1,PLCG1,PLCG1,PLCE1", 
"ZAP70,NF1,CSF1R,RASGRP1,RASGRF1,RASGRF1,RASGRF1,RASGRF1,RASGRF1,NF1,PLCG1,PLCG1,PLCG1,PLCE1"
)), row.names = c(NA, 6L), class = "data.frame")

3) Я не буду что-то подобное

    structure(list(Hugo_Symbol = c("ZAP70", "TTN", "TTN", "PRKCD", 
"PIK3CA", "TLR3"), Variant_Type = c("SNP", "SNP", "SNP", "SNP", 
"SNP", "SNP"), Tumor_Sample_Barcode = c("TCGA-E9-A1RC-01A-11D-A159-09", 
"TCGA-E9-A1RC-01A-11D-A159-09", "TCGA-E9-A1RC-01A-11D-A159-09", 
"TCGA-E9-A1RC-01A-11D-A159-09", "TCGA-E9-A1RC-01A-11D-A159-09", 
"TCGA-E9-A1RC-01A-11D-A159-09"), Pathways = c("hsa04014__44, hsa04014__33, hsa04014__37, hsa04014__24", 
"hsa04530__11 20 16", "hsa04530__11 20 16", "hsa04722__37, hsa04722__35, hsa04722__33", 
"hsa04151__25, hsa04151__37, hsa04151__73", "hsa04620__23")), row.names = c("6", 
"8", "9", "11", "13", "16"), class = "data.frame")

1 Ответ

0 голосов
/ 05 июля 2018

Обновление - Изменен подход решения, так что он также обрабатывает случай, указанный OP. т.е. если Hugo_Symbol равно NF1, то логика не должна совпадать с NF11 или NF12

library(dplyr)
library(tidyr)

df1  %>%
  mutate(Hugo_Symbol = as.character(Hugo_Symbol)) %>%   #convert factor to character variable
  left_join(df2 %>%
              separate_rows(mutated, sep = ','), 
            by = c("Hugo_Symbol" = "mutated")) %>%
  group_by(Hugo_Symbol, Variant_Type, Tumor_Sample_Barcode) %>%
  summarise(Pathways = paste(unique(circuit_names), collapse = ","))   #combine distinct values in Pathways

, что дает

  Hugo_Symbol Variant_Type Tumor_Sample_Barcode         Pathways                                     
1 NF1         SNP          TCGA-E9-A1RC-01A-11D-A159-09 hsa04014__44,hsa04014__33


Пример данных:

df1 <- structure(list(Hugo_Symbol = "NF1", Variant_Type = "SNP", Tumor_Sample_Barcode = "TCGA-E9-A1RC-01A-11D-A159-09"), .Names = c("Hugo_Symbol", 
"Variant_Type", "Tumor_Sample_Barcode"), class = "data.frame", row.names = "1")

df2 <- structure(list(circuit_names = c("hsa04014__44", "hsa04014__33", 
"hsa04014__37", "hsa04014__24"), mutated = c("ZAP70,NF1,MAPK1,RAF1,CSF1R,RASGRP1,MAP2K1", 
"ZAP70,NF1,AKT3,CSF1R,BAD,RASGRP1,RASGRF1,RASGRF1,RASGRF1,RASGRF1", 
"ZAP70,NF11,AKT3,CSF1R,RASGRP1,RASGRF1,RASGRF1,RASGRF1,RASGRF1,RASGRF", 
"ZAP70,NF12,CSF1R,RGL2,RASGRP1,RASGRF1,RASGRF1,RASGRF1,RASGRF1"
)), .Names = c("circuit_names", "mutated"), class = "data.frame", row.names = c("1", 
"2", "3", "4"))
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...