Я пытаюсь выбрать некоторые конкретные данные варианта введите описание изображения здесь из файла vcf и соберите все результаты вместе в конечном результате. используя следующий код:
setwd ("/Users/uos/Downloads/")
library("VariantAnnotation")
result <- matrix(data = NA, nrow = 100000, ncol = 30, byrow = FALSE, dimnames = NULL)
for (x in 1:24)
{
chr <- paste("chr", x, sep="")
if (x == 23) {chr = "chrX"}
if (x == 24) {chr = "chrY"}
print(chr)
g.gr <- GRanges(chr, IRanges(1, 249250621))
params <- ScanVcfParam(which=g.gr)
vcf <- readVcf(TabixFile("snpeff.test.vcf.gz"), "hg19", params)
vcf.Ranges <- data.frame(rowRanges(vcf), info(vcf))
vcf.Ranges11 <- vcf.Ranges[,30]
indexmm <- grep ("missense_variant", vcf.Ranges11)
vcf.mis <- vcf.Ranges[c(indexmm),]
vcf.Ranges11 <- vcf.mis[,30]
indexmm <- grep ("MODERATE", vcf.Ranges11)
vcf.mm <- vcf.mis[c(indexmm),]
rare <- as.character(vcf.mm[,20])
rare <- grep ("NA", rare)
vcf.Ranges22 <- vcf.mm[-c(rare),]
rare2 <- (vcf.Ranges22[,20])
if (length (rare2) > 0)
{
for (j in 1:length(rare2))
{
j1 <- rare2[[j]]
j2 <- min (j1)
rare2[[j]] <- j2
}
rare2 <- unlist(rare2)
vcf.mmlp <- subset(vcf.Ranges22, rare2 < 0.01)
}
print(length(vcf.mmlp[,1]))
if (length(vcf.mmlp[,1]) == 0) next
r <- which (is.na(result[,1]))
r <- min(r)
result[r:(r+length(vcf.mmlp)-1), ] <- vcf.mmlp
}
sink("outLPmm.txt")
print(result)
sink()`
Когда я запускаю этот код, я получаю это предупреждение:
[1] "chr1"
[1] 40
[1] "chr2"
[1] 40
Error in result[, 1] : incorrect number of dimensions
In addition: Warning messages:
1: In .bcfHeaderAsSimpleList(header) :
duplicate keys in header will be forced to unique rownames
2: In .bcfHeaderAsSimpleList(header) :
duplicate keys in header will be forced to unique rownames[1] "chr1"
Моя структура данных: (vcf-файл с полными данными последовательности генома)
head (vcf.Ranges) seqnames начальная конечная ширина прядь paramRangeID REF ALT QUAL FILTER END BLOCKAVG_min30p3a SNVSB SNVHPOL 1 chr1 10247 10248 2 * TA T 100 PASS NA FALSE NA NA 2 chr1 10427 10427 1 A *FALSE NA NA 3 chr1 10433 10433 1 * A AC 375 LowGQXHetIns NA FALSE NA NA 4 chr1 10583 10583 1 * GA 2 PASS NA FALSE 0 2 5 chr1 10623 10623 1 * TC 11 LowGQXetSNP NA FALSE 0 2 6 chr1 10625 10625 1 * CCAGGCGCAG 234 LowGQXHetIns NA FALSE NA NA CIGAR RU REFREP IDREP Unfhased AF1000G AA GMAF космический клинвар EVS RefMinor phyloP CSQT 1 1M1D A 3 2 FALSE NA. ,,FALSE NA 1 | DDX11L .... 2 1M1I C 3 4 FALSE NA. ,,FALSE NA 1 | DDX11L .... 3 1M1I C 3 4 FALSE NA. ,,FALSE NA 1 | DDX11L .... 4. ,Н.А. ЛОЖЬ Н.А. ,1 | COSN65 ..... FALSE NA 1 | DDX11L .... 5. ,Н.А. ЛОЖЬ Н.А. ,,FALSE NA 1 | DDX11L .... 6 1M8I AGGCGCAG 0 1 FALSE NA. ,,FALSE NA 1 | DDX11L .... CSQR ANN LOF NMD VARTYPE SNP MNP INS DEL MIXED HOM HET 1 1 | ENSR00 .... T | upstre .... DEL ЛОЖНО ЛОЖНО ЛОЖНО ЛОЖНО 2 AC | upstr .. .. INS ЛОЖНО ЛОЖНО ЛОЖНО ЛОЖНО ЛОЖНО 3 AC | upstr .... ИНС ЛОЖНО ЛОЖНО ЛОЖНО ЛОЖНО 4 A | upstre .... SNP ИСТИНА ЛОЖНО ЛОЖНО ЛОЖНО 5 C | upstre .... SNP ИСТИНА ЛОЖЬ ЛОЖЬ ЛОЖЬ ЛОЖЬ ИСТИНА 6 CAGGCGCA .... INS ЛОЖЬ ЛОЖЬ ЛОЖЬ ЛОЖЬ ЛОЖЬ ЛОЖЬ