Как можно экспортировать набор вариантов Cloud Genomics в BigQuery теперь, когда varientsets.export устарел? - PullRequest
0 голосов
/ 13 мая 2018

Я загрузил набор вариантов в Cloud Genomics и пытаюсь экспортировать его в BigQuery.Первый подход, который я попробовал, состоял в том, чтобы использовать конвейер, как описано здесь:

https://cloud.google.com/genomics/docs/how-tos/load-variants

Однако, через 20 минут процесс потерпел неудачу.Согласно сообщениям об ошибках StackDriver, это похоже на проблему в файле VCF, хотя я затрудняюсь объяснить, как это можно исправить:

ValueError: Invalid record in VCF file. Error: list index out of range
at next (/usr/local/lib/python2.7/dist-packages/gcp_variant_transforms/beam_io/vcfio.py:476)
at read_records (/usr/local/lib/python2.7/dist-packages/gcp_variant_transforms/beam_io/vcfio.py:398)
at dataflow_worker.native_operations.NativeReadOperation.start (native_operations.py:48)
at dataflow_worker.native_operations.NativeReadOperation.start (native_operations.py:44)
at dataflow_worker.native_operations.NativeReadOperation.start (native_operations.py:39)
at dataflow_worker.native_operations.NativeReadOperation.start (native_operations.py:38)
at execute (/usr/local/lib/python2.7/dist-packages/dataflow_worker/executor.py:167)
at do_work (/usr/local/lib/python2.7/dist-packages/dataflow_worker/batchworker.py:609)

Поэтому я продолжил поиск других вариантов.Я обратился к API:

https://cloud.google.com/genomics/reference/rest/v1/variantsets/export

Я убедился, что моя учетная запись была администратором BigQuery и владельцем набора вариантов Genoimcs.Я использовал следующие параметры:

{
  "projectId": "my-project",
  "format": "FORMAT_BIGQUERY",
  "bigqueryDataset": "my_dataset",
  "bigqueryTable": "new_table"
}

При отправке я получаю следующую ошибку:

{
  "error": {
    "code": 500,
    "message": "Unknown Error.",
    "status": "UNKNOWN"
  }
}

Я также пробовал это из командной строки: gcloud alpha genomics variantsets export variantset_id bigquery_table --bigquery-dataset=my-dataset --bigquery-project=my-project.

Но это также дает мне 500 Неизвестных ошибок.Я возвращался к этому в течение нескольких часов, и документация довольно скудная.

Пожалуйста, что я мог упустить?

Ответы [ 2 ]

0 голосов
/ 13 мая 2018

Похоже, что одна или несколько строк в файле VCF искажены и не соответствуют спецификации .

Мы только что выпустили инструмент препроцессора / валидатора, который показывает отчет обо всех таких искаженных записях. Пожалуйста, попробуйте: https://github.com/googlegenomics/gcp-variant-transforms/blob/master/docs/vcf_files_preprocessor.md (пожалуйста, введите --report_all_conflicts, чтобы получить полный отчет).

Если окажется, что только несколько записей искажены, вы можете либо исправить их вручную в файле VCF, либо запустить конвейер vcf_to_bq с помощью --allow_malformed_records, который пропустит искаженные записи (просто регистрирует их) и загрузить остаток.

0 голосов
/ 13 мая 2018

Спасибо, что задали этот вопрос.Мы осудили Variants API шесть месяцев назад, потому что обнаружили, что первое, что люди сделали с ним, было BQ export.

Итак, мы выпустили совершенно новый FOSS инструмент , Variant Transforms, которая просто выполняет эту задачу, но более производительно.

Ссылка

На самом деле, на этой неделе у нас только что вышел новый релиз.Пожалуйста, посмотрите и дайте нам знать, что вы думаете.

В дополнение к коду и документации, вы также увидите много нашего продукта дорожная карта .

Пожалуйста, прокомментируйте и поделитесь своими мыслями!

К вашему сведению, мы скоро выведем из эксплуатации Variants API.

Джонатан (PM, биомедицинские данные, Google Cloud)

...