Я пытаюсь загрузить проект SRA, и я нашел два способа нацелиться на это:
esearch -db sra -query SRA072302 | efetch -format runinfo > runinfo.csv
cat runinfo.csv | cut -f 1 -d ',' > runids.txt
dos2unix -c mac runids.txt
cat runids.txt | parallel fastq-dump -X 10000 --split-files {}
и
cat runids.txt | parallel fastq-dump --split-files {}
Первый подход загрузил чтение быстро, но я не помню размер данных, и с последним, он извлек гораздо более тяжелые данные, превышающие описание данных, изображенное на NCBI для проекта SRA. Я посмотрел руководство по fastq-dump, пытаясь понять, что делает параметр -X, но понять его было нелегко. Не могли бы вы сказать мне, в чем разница между двумя последними кодами? и какой подход я должен следовать для моих будущих загрузок? Спасибо заранее за вашу помощь.