Трубопровод Google DeepVariant на WGS GRCh37 с моделью exome не завершается - PullRequest
0 голосов
/ 28 июня 2019

У меня есть HAM19-выровненный BAM, для которого я хочу сгенерировать DeepVariant VCF.Я использовал samtools для извлечения заголовка и убедился, что ссылочный индекс FASTA hg19 включает в себя одинаковые значения contigs и location.Моей первоначальной целью было запустить только модель exome на этой WGS BAM, используя следующую модель и регионы:

MODEL = gs: //deepvariant/models/DeepVariant/0.7.2/DeepVariant-inception_v3-0.7.2 + data-wes_standard

- регионы gs: //deepvariant/exome-case-study-testdata/refseq.coding_exons.b37.extended50.bed

К сожалению, скрипт протестовал, заявив, чтобыло 0 совпадений между BED и ссылкой BAM / FASTA.Я решил запустить ту же модель exome, но без указания регионов.Вот мой сценарий:

#!/bin/bash
set -euo pipefail
# Set common settings.
PROJECT_ID=<MY PROJECT>
OUTPUT_BUCKET=gs://<MY BUCKET>
STAGING_FOLDER_NAME=staging
OUTPUT_FILE_NAME=output.vcf
# Model for calling whole genome sequencing data.
MODEL=gs://deepvariant/models/DeepVariant/0.7.2/DeepVariant-inception_v3-0.7.2+data-wes_standard
IMAGE_VERSION=0.7.2
DOCKER_IMAGE=gcr.io/deepvariant-docker/deepvariant:"${IMAGE_VERSION}"
COMMAND="/opt/deepvariant_runner/bin/gcp_deepvariant_runner \
  --project ${PROJECT_ID} \
  --zones us-west1-* \
  --docker_image ${DOCKER_IMAGE} \
  --outfile ${OUTPUT_BUCKET}/${OUTPUT_FILE_NAME} \
  --staging ${OUTPUT_BUCKET}/${STAGING_FOLDER_NAME} \
  --model ${MODEL} \
  --bam gs://my-bucket/wgs_data.bam \
  --ref gs://my-bucket/human_g1k_v37.fa \
  --shards 512 \
  --make_examples_workers 32 \
  --make_examples_cores_per_worker 16 \
  --make_examples_ram_per_worker_gb 60 \
  --make_examples_disk_per_worker_gb 200 \
  --call_variants_workers 32 \
  --call_variants_cores_per_worker 32 \
  --call_variants_ram_per_worker_gb 60 \
  --call_variants_disk_per_worker_gb 50 \
  --gcsfuse"
# Run the pipeline.
gcloud alpha genomics pipelines run \
    --project "${PROJECT_ID}" \
    --service-account-scopes="https://www.googleapis.com/auth/cloud-platform" \
    --logging "${OUTPUT_BUCKET}/${STAGING_FOLDER_NAME}/runner_logs_$(date +%Y%m%d_%H%M%S).log" \
    --regions us-west1 \
    --docker-image gcr.io/cloud-genomics-pipelines/gcp-deepvariant-runner \
    --command-line "${COMMAND}"

BAM имеет соответствующий BAI, а FA имеет файл FAI.DeepVariant QuickStart указывает, что эти настройки будут создавать VCF через 1-2 часа, но мой конвейер работает уже более 7 часов.Промежуточная папка теперь содержит call_variants с 31 из 32 GZ-файлов.Представление конвейеров Genomics показывает 11 конвейеров, выполняющих call_variant, поэтому я подозреваю, что он работает над последним файлом, который готовится объединить все в один VCF.

Я просто не понимаю, почему это занимает так много времени.Я нарочно исключил вытесняющие экземпляры, и в документации сказано, что конвейер exome должен занимать всего 20 минут (с WGS на 1-2 часа).Почему это может быть так медленно?

1 Ответ

1 голос
/ 28 июня 2019

Время выполнения, которое вы видите, определенно медленнее, чем ожидалось для DeepVariant.

Одно наблюдение в начале - координаты BED захвата exome (refseq.coding_exons.b37.extended50.bed) и ссылки(human_g1k_v37.fa) должен совпадать.Знаете ли вы, на какой эталонный геном отображается ваш БАМ?Просто чтобы подтвердить, в вашем файле FASTA первая строка должна выглядеть следующим образом:> 1 без "chr".

Ожидаемое время должно быть <1 час при использовании файла регионов.</p>

Во-вторых, могу ли я попросить вас попробовать запустить пример exome на одном компьютере, следуя инструкциям на этой странице:

https://github.com/google/deepvariant/blob/r0.8/docs/deepvariant-exome-case-study.md

Выполнение этого поможетопределите, связана ли проблема, с которой вы столкнулись, с самим DeepVariant, или она связана с облачной реализацией GCP, отдельной от программы.

Спасибо, Эндрю

...