Я сделал сборку, используя чтение от птицы, зараженной паразитом (используя Trinity) >> Trinity.fasta
Я создал индекс для генома, используя:
gmap_build -d genome -k 15 GCF_000534875.1_SCA1_genomic.fa
Каталог под названием "геном" был создан там, где сейчас находится:
ll
total 5772532
-rw-rw-r--. 1 luz_garcia_longoria luz_garcia_longoria 12774633 Jan 15 11:28 genome.chromosome
-rw-rw-r--. 1 luz_garcia_longoria luz_garcia_longoria 20699247 Jan 15 11:28 genome.chromosome.iit
-rw-rw-r--. 1 luz_garcia_longoria luz_garcia_longoria 6 Jan 15 11:28 genome.chrsubset
-rw-rw-r--. 1 luz_garcia_longoria luz_garcia_longoria 19461467 Jan 15 11:28 genome.contig
-rw-rw-r--. 1 luz_garcia_longoria luz_garcia_longoria 21602471 Jan 15 11:28 genome.contig.iit
-rw-rw-r--. 1 luz_garcia_longoria luz_garcia_longoria 432037584 Jan 15 11:29 genome.genomebits128
-rw-rw-r--. 1 luz_garcia_longoria luz_garcia_longoria 432037548 Jan 15 11:29 genome.genomecomp
drwxr-xr-x. 2 luz_garcia_longoria luz_garcia_longoria 4096 Jan 15 11:27 genome.maps
-rw-rw-r--. 1 luz_garcia_longoria luz_garcia_longoria 72007680 Jan 15 11:53 genome.ref081locoffsets64meta
-rw-rw-r--. 1 luz_garcia_longoria luz_garcia_longoria 660530864 Jan 15 11:53 genome.ref081locoffsets64strm
-rw-rw-r--. 1 luz_garcia_longoria luz_garcia_longoria 2249041724 Jan 15 11:53 genome.ref081locpositions
-rw-rw-r--. 1 luz_garcia_longoria luz_garcia_longoria 140648 Jan 15 11:53 genome.ref081loctable
-rw-rw-r--. 1 luz_garcia_longoria luz_garcia_longoria 134217744 Jan 15 11:35 genome.ref153offsets64meta
-rw-rw-r--. 1 luz_garcia_longoria luz_garcia_longoria 360216272 Jan 15 11:35 genome.ref153offsets64strm
-rw-rw-r--. 1 luz_garcia_longoria luz_garcia_longoria 1496235468 Jan 15 11:44 genome.ref153positions
-rw-rw-r--. 1 luz_garcia_longoria luz_garcia_longoria 7 Jan 15 11:27 genome.version
(надеюсь, я сделал это правильно)
Теперь, чтобы «очистить» мою сборку (файл Trinity.fasta), я хочу выровнять контиги транскрипта Trinity по геному, НО я хочу сохранить только те контиги, которые НЕ соответствуют геному.
Я читал информацию --help, которую предоставляет gmap, но у меня нет четкого представления о том, какие параметры вывода используются. Моя идея что-то вроде:
gmap -D . -d genome trinity_out_dir/Trinity.fasta --failsonly -f samse > trinity_gmap.sam
Согласно справке gmap:
--failsonly Print only failed alignments, those with no results
Итак, теоретически, с помощью этой команды программа должна выровнять мою сборку по геному и создать выходной файл только с теми контигами, которые не совпадают с геномом, верно?
Пожалуйста, дайте мне знать, если я делаю что-то не так.
Спасибо
Luz
PS: может быть, я должен использовать другую опцию, например --failed-input = STRING и --split-output = STRING, но не уверен !!!