Сопоставление с GMAP: какой вариант вывода мне использовать? - PullRequest
0 голосов
/ 15 января 2019

Я сделал сборку, используя чтение от птицы, зараженной паразитом (используя Trinity) >> Trinity.fasta

Я создал индекс для генома, используя:

gmap_build -d genome -k 15 GCF_000534875.1_SCA1_genomic.fa

Каталог под названием "геном" был создан там, где сейчас находится:

ll
total 5772532
-rw-rw-r--. 1 luz_garcia_longoria luz_garcia_longoria   12774633 Jan 15 11:28 genome.chromosome
-rw-rw-r--. 1 luz_garcia_longoria luz_garcia_longoria   20699247 Jan 15 11:28 genome.chromosome.iit
-rw-rw-r--. 1 luz_garcia_longoria luz_garcia_longoria          6 Jan 15 11:28 genome.chrsubset
-rw-rw-r--. 1 luz_garcia_longoria luz_garcia_longoria   19461467 Jan 15 11:28 genome.contig
-rw-rw-r--. 1 luz_garcia_longoria luz_garcia_longoria   21602471 Jan 15 11:28 genome.contig.iit
-rw-rw-r--. 1 luz_garcia_longoria luz_garcia_longoria  432037584 Jan 15 11:29 genome.genomebits128
-rw-rw-r--. 1 luz_garcia_longoria luz_garcia_longoria  432037548 Jan 15 11:29 genome.genomecomp
drwxr-xr-x. 2 luz_garcia_longoria luz_garcia_longoria       4096 Jan 15 11:27 genome.maps
-rw-rw-r--. 1 luz_garcia_longoria luz_garcia_longoria   72007680 Jan 15 11:53 genome.ref081locoffsets64meta
-rw-rw-r--. 1 luz_garcia_longoria luz_garcia_longoria  660530864 Jan 15 11:53 genome.ref081locoffsets64strm
-rw-rw-r--. 1 luz_garcia_longoria luz_garcia_longoria 2249041724 Jan 15 11:53 genome.ref081locpositions
-rw-rw-r--. 1 luz_garcia_longoria luz_garcia_longoria     140648 Jan 15 11:53 genome.ref081loctable
-rw-rw-r--. 1 luz_garcia_longoria luz_garcia_longoria  134217744 Jan 15 11:35 genome.ref153offsets64meta
-rw-rw-r--. 1 luz_garcia_longoria luz_garcia_longoria  360216272 Jan 15 11:35 genome.ref153offsets64strm
-rw-rw-r--. 1 luz_garcia_longoria luz_garcia_longoria 1496235468 Jan 15 11:44 genome.ref153positions
-rw-rw-r--. 1 luz_garcia_longoria luz_garcia_longoria          7 Jan 15 11:27 genome.version

(надеюсь, я сделал это правильно)

Теперь, чтобы «очистить» мою сборку (файл Trinity.fasta), я хочу выровнять контиги транскрипта Trinity по геному, НО я хочу сохранить только те контиги, которые НЕ соответствуют геному. Я читал информацию --help, которую предоставляет gmap, но у меня нет четкого представления о том, какие параметры вывода используются. Моя идея что-то вроде:

    gmap -D . -d genome trinity_out_dir/Trinity.fasta --failsonly  -f samse >  trinity_gmap.sam

Согласно справке gmap:

--failsonly                    Print only failed alignments, those with no results

Итак, теоретически, с помощью этой команды программа должна выровнять мою сборку по геному и создать выходной файл только с теми контигами, которые не совпадают с геномом, верно?

Пожалуйста, дайте мне знать, если я делаю что-то не так.

Спасибо

Luz

PS: может быть, я должен использовать другую опцию, например --failed-input = STRING и --split-output = STRING, но не уверен !!!

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...