Как загрузить файлы BAM из SRA? У меня есть SRA Toolkit, но я запутался - PullRequest
0 голосов
/ 06 августа 2020

Я пытаюсь загрузить набор данных в формате BAM из GEO / SRA, который я могу использовать для анализа в RStudio.

Я пробовал использовать этот метод: я скачал .sra и преобразовал его в .bam

prefetch GSM269238
sam-dump C:\Users\Desktop\sratoolkit.2.10.8-win64\bin\ncbi\SRA\sra\GSM2692389.sra --output-file GSM2692389.bam

Однако в RStudio это не сработало и вернуло сообщение об ошибке, в котором говорилось, что он не может прочитать файл BAM. Это мой код R; Я использую RSamTools

> bamfiles <- list.files("directory redacted due to privacy", ".bam")
> file.exists(bamfiles)
[1] TRUE
> 
> 
> #---> Define bam files for count step on Rsamtools
> 
> library("Rsamtools")
> bamfiles <- BamFileList(bamfiles, yieldSize=2000000)
> seqinfo(bamfiles)
Error in value[[3L]](cond) : 
  failed to open BamFile: SAM/BAM header missing or empty
  file: 'GSM2692389.bam'

Кто-нибудь знает, как помочь мне загрузить данные SRA в читаемые файлы .bam? Любая помощь или руководство будут очень благодарны, так как я действительно пытаюсь уложиться в срок с этим.

1 Ответ

0 голосов
/ 07 августа 2020

Я бы сказал, что ваша проблема вызвана тем, что у вас на самом деле нет файлов BAM! Прямо сейчас ваша команда загружает файлы sam (отсюда и название sam-dump), и вы просто сохраняете их с расширением bam (простой тест - использовать head в ваших «файлах bam». Если вы умеете читать их, то они не двоичные, что означает, что они не бац. В противном случае вы можете использовать samtools view, как предлагает bli).

При этом вы можете попробовать это (убедитесь, что samtools установлен перед использованием):

sam-dump C:\Users\Desktop\sratoolkit.2.10.8-win64\bin\ncbi\SRA\sra\GSM2692389.sra | samtools view -bS - > GSM2692389.bam

Кроме того, если вы не особенно заинтересованы в загрузке файлов .sra, вы также можете использовать это, что проще и короче (и, возможно, быстрее) :

sam-dump SRR5799988 | samtools view -bS - > GSM2692389.bam

Я взял на себя смелость заменить ваш номер GSM на соответствующий номер SRR (см. https://www.ncbi.nlm.nih.gov/sra?term=SRX2979455), но не бойтесь дважды проверить SRR!

Подробнее о сам-дамп: https://trace.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=toolkit_doc&f=sam-dump

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...