Запуск DeepVariant на всей последовательности exome GRCh38 - PullRequest
0 голосов
/ 06 ноября 2018

Я пытаюсь запустить DeepVariant на моем BAM-файле для создания VCF. У меня есть следующие вопросы:

1 - Выравнивание в GRCh38, какую модель я должен использовать. Могу ли я использовать стандартную целую модель последовательности exome? ( 'гс: //deepvariant/models/DeepVariant/0.7.0/DeepVariant-inception_v3-0.7.0+data-wes_standard')

2 - Какой файл BED использовать для указания экзомных областей? Есть ли стандартный? Я нашел один здесь, который я использую сейчас ("CDS-cannonical.bed"): https://github.com/AstraZeneca-NGS/reference_data/tree/master/hg38/bed

3 - Я использую геном Verily GRCh38, есть ли стандартное выравнивание GRCh38, доступное в геномике Google. Это тот, который у меня есть: --ref gs: //genomics-public-data/references/GRCh38_Verily/GRCh38_Verily_v1.genome.fa \

Я настроил свой скрипт следующим образом, пожалуйста, дайте мне знать, если он имеет смысл:

#!/bin/bash
set -euo pipefail
# Set common settings.
PROJECT_ID=valis-194104
OUTPUT_BUCKET=gs://canis/CNR-data
STAGING_FOLDER_NAME=deep_variant_files
OUTPUT_FILE_NAME=TLE_a_001.vcf
# Model for calling whole exome sequencing data.
MODEL=gs://deepvariant/models/DeepVariant/0.7.0/DeepVariant-inception_v3-0.7.0+data-wes_standard
IMAGE_VERSION=0.7.0
DOCKER_IMAGE=gcr.io/deepvariant-docker/deepvariant:"${IMAGE_VERSION}"
COMMAND="/opt/deepvariant_runner/bin/gcp_deepvariant_runner \
  --project ${PROJECT_ID} \
  --zones us-west1-b \
  --docker_image ${DOCKER_IMAGE} \
  --outfile ${OUTPUT_BUCKET}/${OUTPUT_FILE_NAME} \
  --staging ${OUTPUT_BUCKET}/${STAGING_FOLDER_NAME} \
  --model ${MODEL} \
  --regions gs://canis/CNR-data/CDS-canonical.bed \
  --bam gs://canis/CNR-data/TLE_a_001_R_2014_09_17_16_35_30_user_WAL-19-TLE_17_09_2014_Auto_user_WAL-19-TLE_17_09_2014_57.bam \
  --ref gs://genomics-public-data/references/GRCh38_Verily/GRCh38_Verily_v1.genome.fa  \
  --gcsfuse"
# Run the pipeline.
gcloud alpha genomics pipelines run \
    --project "${PROJECT_ID}" \
    --service-account-scopes="https://www.googleapis.com/auth/cloud-platform" \
    --logging "${OUTPUT_BUCKET}/${STAGING_FOLDER_NAME}/runner_logs_$(date +%Y%m%d_%H%M%S).log" \
    --zones us-west1-b \
    --docker-image gcr.io/deepvariant-docker/deepvariant_runner:"${IMAGE_VERSION}" \
    --command-line "${COMMAND}"

РЕДАКТИРОВАТЬ:

Я попытался добавить файл .bam.bai (индекс bam), созданный с помощью samtools

Я все еще получаю сообщение об ошибке:

  Traceback (most recent call last):
    File "/opt/deepvariant_runner/src/gcp_deepvariant_runner.py", line 862, in <module>
      run()
    File "/opt/deepvariant_runner/src/gcp_deepvariant_runner.py", line 845, in run
      _run_make_examples(pipeline_args)
    File "/opt/deepvariant_runner/src/gcp_deepvariant_runner.py", line 340, in _run_make_examples
      _wait_for_results(threads, results)
    File "/opt/deepvariant_runner/src/gcp_deepvariant_runner.py", line 352, in _wait_for_results
      result.get()
    File "/usr/lib/python2.7/multiprocessing/pool.py", line 572, in get
      raise self._value
  RuntimeError: Job failed with error "run": operation "projects/valis-194104/operations/13939489157244551677" failed: executing pipeline: Execution failed: action 5: unexpected exit status 1 was not ignored (reason: FAILED_PRECONDITION)
details:

1 Ответ

0 голосов
/ 06 ноября 2018

1 - модель работает на любой версии эталонного генома. Вы должны убедиться, что ваш файл BAM совпадает с указанным вами эталонным геномом.

2- Это зависит от того, откуда взялся ваш BAM-файл exome и какова соответствующая BED область захвата. Иногда запуск samtools view -H в файле BAM скажет вам, какой регион захвата использовался для его генерации.

3- Я просто быстро просмотрел это: оно должно работать. Есть несколько распространенных режимов сбоев, которые мы надеемся сделать более надежными в будущем: например, я думаю, что в настоящее время существует предположение, что вам нужно иметь соответствующий индексированный файл BAI с именем * .bam.bai в том же каталоге. Самое безопасное - предоставить флаг --bai, указывающий на ваш файл BAI (как в примере https://cloud.google.com/genomics/docs/tutorials/deepvariant).). Аналогично, этот конвейер завершится ошибкой, если не сможет найти файл индекса для файла FASTA. gs: //genomics-public-data/references/GRCh38_Verily/GRCh38_Verily_v1.genome.fa.fai существует, так что его нужно покрыть.

Дайте нам знать, если у вас возникнут какие-либо проблемы. Мы надеемся улучшить удобство использования для DeepVariant и Google Cloud Runner, поэтому ваши отзывы очень важны для нас.

В будущем также не стесняйтесь использовать нашу проблему GitHub для любых вопросов или обсуждений. Наша команда внимательно следит за всеми проблемами там: https://github.com/google/deepvariant/issues

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...