неверное количество измерений для файла vcf - PullRequest
0 голосов
/ 31 октября 2019

Я пытаюсь выбрать некоторые конкретные данные варианта введите описание изображения здесь из файла vcf и соберите все результаты вместе в конечном результате. используя следующий код:

setwd ("/Users/uos/Downloads/")
library("VariantAnnotation")
result <- matrix(data = NA, nrow = 100000, ncol = 30, byrow = FALSE, dimnames = NULL)

for (x in 1:24)
{
  chr <- paste("chr", x, sep="")
  if (x == 23) {chr = "chrX"}
  if (x == 24) {chr = "chrY"}
  print(chr)

  g.gr <- GRanges(chr, IRanges(1, 249250621))
  params <- ScanVcfParam(which=g.gr)
  vcf <- readVcf(TabixFile("snpeff.test.vcf.gz"), "hg19", params)
  vcf.Ranges <- data.frame(rowRanges(vcf), info(vcf))

  vcf.Ranges11 <- vcf.Ranges[,30]
  indexmm <- grep ("missense_variant", vcf.Ranges11)
  vcf.mis <- vcf.Ranges[c(indexmm),]

  vcf.Ranges11 <- vcf.mis[,30]
  indexmm <- grep ("MODERATE", vcf.Ranges11)
  vcf.mm <- vcf.mis[c(indexmm),]

  rare <- as.character(vcf.mm[,20])
  rare <- grep ("NA", rare)
  vcf.Ranges22 <- vcf.mm[-c(rare),]
  rare2 <-  (vcf.Ranges22[,20])

  if (length (rare2) > 0)
    {
    for (j in 1:length(rare2))
      {
      j1 <- rare2[[j]]
      j2 <- min (j1)
      rare2[[j]] <- j2
      }
    rare2 <- unlist(rare2)
    vcf.mmlp <- subset(vcf.Ranges22, rare2 < 0.01)
  } 
  print(length(vcf.mmlp[,1]))
  if (length(vcf.mmlp[,1]) == 0) next

  r <- which (is.na(result[,1]))
  r <- min(r)
  result[r:(r+length(vcf.mmlp)-1), ] <- vcf.mmlp
  }

sink("outLPmm.txt")
print(result)
sink()`

Когда я запускаю этот код, я получаю это предупреждение:

[1] "chr1"
[1] 40
[1] "chr2"
[1] 40
Error in result[, 1] : incorrect number of dimensions
In addition: Warning messages:
1: In .bcfHeaderAsSimpleList(header) :
  duplicate keys in header will be forced to unique rownames
2: In .bcfHeaderAsSimpleList(header) :
  duplicate keys in header will be forced to unique rownames[1] "chr1"

Моя структура данных: (vcf-файл с полными данными последовательности генома)

head (vcf.Ranges) seqnames начальная конечная ширина прядь paramRangeID REF ALT QUAL FILTER END BLOCKAVG_min30p3a SNVSB SNVHPOL 1 chr1 10247 10248 2 * TA T 100 PASS NA FALSE NA NA 2 chr1 10427 10427 1 A *FALSE NA NA 3 chr1 10433 10433 1 * A AC 375 LowGQXHetIns NA FALSE NA NA 4 chr1 10583 10583 1 * GA 2 PASS NA FALSE 0 2 5 chr1 10623 10623 1 * TC 11 LowGQXetSNP NA FALSE 0 2 6 chr1 10625 10625 1 * CCAGGCGCAG 234 LowGQXHetIns NA FALSE NA NA CIGAR RU REFREP IDREP Unfhased AF1000G AA GMAF космический клинвар EVS RefMinor phyloP CSQT 1 1M1D A 3 2 FALSE NA. ,,FALSE NA 1 | DDX11L .... 2 1M1I C 3 4 FALSE NA. ,,FALSE NA 1 | DDX11L .... 3 1M1I C 3 4 FALSE NA. ,,FALSE NA 1 | DDX11L .... 4. ,Н.А. ЛОЖЬ Н.А. ,1 | COSN65 ..... FALSE NA 1 | DDX11L .... 5. ,Н.А. ЛОЖЬ Н.А. ,,FALSE NA 1 | DDX11L .... 6 1M8I AGGCGCAG 0 1 FALSE NA. ,,FALSE NA 1 | DDX11L .... CSQR ANN LOF NMD VARTYPE SNP MNP INS DEL MIXED HOM HET 1 1 | ENSR00 .... T | upstre .... DEL ЛОЖНО ЛОЖНО ЛОЖНО ЛОЖНО 2 AC | upstr .. .. INS ЛОЖНО ЛОЖНО ЛОЖНО ЛОЖНО ЛОЖНО 3 AC | upstr .... ИНС ЛОЖНО ЛОЖНО ЛОЖНО ЛОЖНО 4 A | upstre .... SNP ИСТИНА ЛОЖНО ЛОЖНО ЛОЖНО 5 C | upstre .... SNP ИСТИНА ЛОЖЬ ЛОЖЬ ЛОЖЬ ЛОЖЬ ИСТИНА 6 CAGGCGCA .... INS ЛОЖЬ ЛОЖЬ ЛОЖЬ ЛОЖЬ ЛОЖЬ ЛОЖЬ

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...