У меня есть HAM19-выровненный BAM, для которого я хочу сгенерировать DeepVariant VCF.Я использовал samtools для извлечения заголовка и убедился, что ссылочный индекс FASTA hg19 включает в себя одинаковые значения contigs и location.Моей первоначальной целью было запустить только модель exome на этой WGS BAM, используя следующую модель и регионы:
MODEL = gs: //deepvariant/models/DeepVariant/0.7.2/DeepVariant-inception_v3-0.7.2 + data-wes_standard
- регионы gs: //deepvariant/exome-case-study-testdata/refseq.coding_exons.b37.extended50.bed
К сожалению, скрипт протестовал, заявив, чтобыло 0 совпадений между BED и ссылкой BAM / FASTA.Я решил запустить ту же модель exome, но без указания регионов.Вот мой сценарий:
#!/bin/bash
set -euo pipefail
# Set common settings.
PROJECT_ID=<MY PROJECT>
OUTPUT_BUCKET=gs://<MY BUCKET>
STAGING_FOLDER_NAME=staging
OUTPUT_FILE_NAME=output.vcf
# Model for calling whole genome sequencing data.
MODEL=gs://deepvariant/models/DeepVariant/0.7.2/DeepVariant-inception_v3-0.7.2+data-wes_standard
IMAGE_VERSION=0.7.2
DOCKER_IMAGE=gcr.io/deepvariant-docker/deepvariant:"${IMAGE_VERSION}"
COMMAND="/opt/deepvariant_runner/bin/gcp_deepvariant_runner \
--project ${PROJECT_ID} \
--zones us-west1-* \
--docker_image ${DOCKER_IMAGE} \
--outfile ${OUTPUT_BUCKET}/${OUTPUT_FILE_NAME} \
--staging ${OUTPUT_BUCKET}/${STAGING_FOLDER_NAME} \
--model ${MODEL} \
--bam gs://my-bucket/wgs_data.bam \
--ref gs://my-bucket/human_g1k_v37.fa \
--shards 512 \
--make_examples_workers 32 \
--make_examples_cores_per_worker 16 \
--make_examples_ram_per_worker_gb 60 \
--make_examples_disk_per_worker_gb 200 \
--call_variants_workers 32 \
--call_variants_cores_per_worker 32 \
--call_variants_ram_per_worker_gb 60 \
--call_variants_disk_per_worker_gb 50 \
--gcsfuse"
# Run the pipeline.
gcloud alpha genomics pipelines run \
--project "${PROJECT_ID}" \
--service-account-scopes="https://www.googleapis.com/auth/cloud-platform" \
--logging "${OUTPUT_BUCKET}/${STAGING_FOLDER_NAME}/runner_logs_$(date +%Y%m%d_%H%M%S).log" \
--regions us-west1 \
--docker-image gcr.io/cloud-genomics-pipelines/gcp-deepvariant-runner \
--command-line "${COMMAND}"
BAM имеет соответствующий BAI, а FA имеет файл FAI.DeepVariant QuickStart указывает, что эти настройки будут создавать VCF через 1-2 часа, но мой конвейер работает уже более 7 часов.Промежуточная папка теперь содержит call_variants с 31 из 32 GZ-файлов.Представление конвейеров Genomics показывает 11 конвейеров, выполняющих call_variant, поэтому я подозреваю, что он работает над последним файлом, который готовится объединить все в один VCF.
Я просто не понимаю, почему это занимает так много времени.Я нарочно исключил вытесняющие экземпляры, и в документации сказано, что конвейер exome должен занимать всего 20 минут (с WGS на 1-2 часа).Почему это может быть так медленно?