Можно ли частично разархивировать файл .vcf? - PullRequest
0 голосов
/ 08 мая 2019

У меня есть заархивированный vcf-файл размером ~ 300 ГБ (.vcf.gz), который содержит геномы около 700 собак. Меня интересуют только некоторые из этих собак, и у меня нет достаточно места, чтобы разархивировать весь файл в данный момент, хотя я нахожусь в процессе получения компьютера для этого. Можно ли распаковать только части файла, чтобы начать тестирование моих сценариев?

Я пытаюсь определить конкретный SNP в позиции подмножества выборок. Я попытался использовать bcftools безрезультатно: (Если кто-то может определить, что пошло не так, я был бы очень признателен. Я создал пустой файл для вывода (722g.990.SNP.INDEL.chrAll .vcf.bgz), но возвращает следующую ошибку)

bcftools view -f PASS --threads 8 -r chr9:55252802-55252810 -o 722g.990.SNP.INDEL.chrAll.vcf.gz -O z 722g.990.SNP.INDEL.chrAll.vcf.bgz

Тип вывода "722g.990.SNP.INDEL.chrAll.vcf.bgz" не распознан

Я планирую попробовать awk , но сначала мне нужно распаковать файл. Можно ли частично распаковать его, чтобы я мог попробовать это?

Ответы [ 2 ]

3 голосов
/ 08 мая 2019

Дважды проверьте вашу командную строку на bcftools view.

  1. Сообщение об ошибке 'Тип вывода "что-то" не распознан " печатается bcftools, когда вы указываете недопустимое значение для параметра командной строки -O (заглавные буквы O) как это -O something. Судя по полученному вами сообщению об ошибке, вы, возможно, поместили имя файла туда.

  2. Убедитесь, что в вашей команде неверно указаны имена входных и выходных файлов. Обратите внимание, что параметр командной строки -o (в нижнем регистре o) указывает имя файла output , а именем файла в конце командной строки является имя файла input .

Также вы пишете, что создали пустой файл для вывода. Вам не нужно этого делать, bcftools создаст выходной файл.

1 голос
/ 09 мая 2019

У меня нет особого опыта работы с bcftools, но в целом. Если вы хотите использовать awk для манипулирования gzip-файлом, вы можете направить на него канал так, чтобы только распаковать файл по мере необходимости, вы также можете передать результат напрямую через gzip, поэтому он тоже сжимается, например

gzip -cd largeFile.vcf.gz | awk '{ <some awk> }' | gzip -c > newfile.txt.gz

Также zcat - это псевдоним для gzip -cd, -c - ввод / вывод для стандартного выхода, -d - распаковка.

В качестве примечания, если вы пытаетесь выполнить операции только с частью большого файла, вы также можете найти отличный инструмент less, полезный, его можно использовать для просмотра вашего большого файла, загружая только необходимые части, * Параметр 1012 * особенно полезен для широких форматов с большим количеством столбцов, поскольку останавливает перенос строк, как и -N для отображения номеров строк.

less -S largefile.vcf.gz 

выйдите из режима просмотра с помощью q, а g приведет вас к началу файла.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...