Используя SnpSift, только 0,52% VCF аннотируется базой данных dbsnp. - PullRequest
0 голосов
/ 28 апреля 2020

Я создал отсортированный по координатам vcf-файл из подставки, используя следующие команды:

сортировка samtools - @ 10 -o /output/sorted.cram

индекс samtools - @ 10 / output /sorted.cram

bcftools mpileup -f reference.fa -r chrz: zzzz-zzzzx -a INFO / AD, FORMAT / DP - темы 10 -O v -o /output/mpileup.vcf / input /sorted.cram

Я пытаюсь аннотировать отсортированный по координатам файл vcf (ref genome Hg38) с помощью snpsift. Я использую следующую команду:

java -jar SnpSift.jar annotate -v /dbsnp/file.vcf.gz /input/mpileup.vcf> /output/annotated.vcf

Я скачал файл dbsnp vcf и индекс вкладки здесь: ftp: //ftp.ncbi.nih.gov/snp/organisms/human_9606_b151_GRCh38p7/VCF/GATK/

Однако, только 0,52% VCF аннотируется ... Это кажется странным. Кроме того, когда я пытаюсь использовать веб-интерфейс ансамбля (https://useast.ensembl.org/Multi/Tools/VEP?db=core), чтобы аннотировать мой vcf, я получаю ошибку «неверный ввод». Это заставляет меня верить, что что-то не так с моим файлом vcf? Я пытаюсь аннотировать только один ген, нормально ли, что dbsnp аннотирует только 0,52% гена? Заранее благодарю за любую помощь!


Обновление! Если использовать bcftools mpileup | bcftools вызывает --variants-only, тогда работает инструмент ensembl. Кроме того, это искусственно увеличивает% аннотированных SNP.

...