Трудность в загрузке данных TCGA - PullRequest
1 голос
/ 18 января 2020

Я пытаюсь загрузить данные TCGA, но получаю эту ошибку:

Ошибка в summazeMaf (maf = maf, anno = clinicData, chatty = verbose): столбец Tumor_Sample_Barcode не найден в предоставленном клинические данные. При необходимости переименуйте столбец, содержащий имена образцов, в Tumor_Sample_Barcode.

Это мой код:

library("TCGAbiolinks")
library("tidyverse")
library(maftools)
query <- GDCquery(   project = "TCGA-LIHC",  
                     data.category = "Clinical", 
                     file.type = "xml", 
                     legacy = FALSE)
GDCdownload(query,directory = ".")

clinical <- GDCprepare_clinic(query, clinical.info = "patient",directory = ".")
#getting the survival time of event data
survival_data <- as_tibble(clinical[,c("days_to_last_followup","days_to_death","vital_status","bcr_patient_barcode","patient_id")]) 
survival_data <- filter(survival_data,!is.na(days_to_last_followup)|!is.na(days_to_death))  #not both NA
survival_data <- filter(survival_data,!is.na(days_to_last_followup)|days_to_last_followup>0 &is.na(days_to_death)|days_to_death > 0 ) #ensuring positive values
survival_data <- survival_data[!duplicated(survival_data$patient_id),]  #ensuring no duplicates


dim(survival_data) #should be 371


maf <- GDCquery_Maf("LIHC", pipelines = "muse")
#maf <- GDCquery_Maf("LIHC", pipelines = "somaticsniper")

#clin <- GDCquery_clinic("TCGA-LIHC","clinical")
#print(clin )



laml = read.maf(
  maf,
  clinicalData = clinical,
  removeDuplicatedVariants = TRUE,
  useAll = TRUE,
  gisticAllLesionsFile = NULL,
  gisticAmpGenesFile = NULL,
  gisticDelGenesFile = NULL,
  gisticScoresFile = NULL,
  cnLevel = "all",
  cnTable = NULL,
  isTCGA = TRUE,
  vc_nonSyn = NULL,
  verbose = TRUE
)

1 Ответ

0 голосов
/ 29 января 2020

У вас должно быть: a) загружено library(maftools) и b) включено то, что было напечатано до этого сообщения об ошибке:

-Validating
-Silent variants: 18306 
-Summarizing
--Possible FLAGS among top ten genes:
  TTN
  MUC16
  OBSCN
  FLG
-Processing clinical data
Available fields in provided annotations..
 [1] "bcr_patient_barcode"                              "additional_studies"                              
 [3] "tissue_source_site"                               "patient_id" 
# snipped remaining 78 column names      

Обратите внимание, что первый столбец не называется «Tumor_Sample_Barcode», поэтому вы необходимо следовать указаниям полезного сообщения об ошибке и переименовать соответствующий столбец, который выглядит первым:

ns. After doing so I get:

-Validating
-Silent variants: 18306 
-Summarizing
--Possible FLAGS among top ten genes:
  TTN
  MUC16
  OBSCN
  FLG
-Processing clinical data
-Finished in 1.911s elapsed (2.470s cpu) 
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...