Распечатать идентификатор транскрипции и символ гена из РНА Фаста в новый текстовый файл - PullRequest
1 голос
/ 01 июля 2019

Я хотел бы напечатать идентификатор стенограммы и символ гена из заголовков файла rna fasta в текстовый файл.Я хотел бы закончить с текстовым файлом с первым столбцом, являющимся идентификатором транскрипта, и вторым, являющимся символом гена.

Пример заголовка:

>NM_001001258.1 Sus scrofa ATPase H+/K+ transporting beta subunit (ATP4B)
>XM_001924668.4 PREDICTED: Sus scrofa XK related 9 (XKR9), transcript variant X1, mRNA

Я былвозможность распечатать идентификатор стенограммы в текстовом файле:

grep "^>" GCF_000003025.6_Sscrofa11.1_rna.fna | tr -d '>' | awk '{print $1}' > test.txt

Я также смог напечатать символ гена в текстовом файле:

grep "^>" GCF_000003025.6_Sscrofa11.1_rna.fna | awk -F'[()]' '{print $2}' > test.txt

Мне просто интересно, есть ли кто-нибудьможет помочь мне объединить это в один шаг, чтобы получить один файл.Я знаю, что могу просто объединить файлы, но хочу быть уверенным, что идентификаторы идут из одних и тех же строк.

Ответы [ 2 ]

0 голосов
/ 01 июля 2019
$ awk -F '[>)]| .*[(]' '{print $2, $3}' file
NM_001001258.1 ATP4B
XM_001924668.4 XKR9
0 голосов
/ 01 июля 2019

Использование sed:

sed -rn '/^>/ s/^>([^ ]+).*\(([^)]+).*/\1 \2/gp'
XM_001924668.4 XKR9
NM_001001258.1 ATP4B

Здесь First /^>/ должен сказать sed, чтобы он выполнял только действия в согласованной строке. Позже захватили две интересующие строки и передали их с помощью \1 и \2, отозвав ссылки на

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...