Файловая манипуляция с файлом генома - PullRequest
0 голосов
/ 10 октября 2018

У меня есть файл генома (размер: ~ 840 МБ и 13801301 строк) следующего формата ('genome.txt')

>SL3.0ch00
AATAATAATAATAATAATAATAATAAATAAATAAATAAATAATAATAATAATAATAATAA
TAAATAAATAAATAAATAAATAAATAAATAAATAATAATAATAATAATAATAATAATAAT
AATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAATAAT
AATAATAATAATAATAATAATAATAATAAAAATAATAATAATAATAATAATAATAATAAT
>SL3.0ch01
TAGAGGATCTTGGAGGAGGTTCATTGCTGCAGATATTCCATTCATCCGATTTCCTCCAAG
ATGTACCGCGATTTGAGAGAGGTATATTGGTGGGAAGGCAAAGAGAGAGATATTGTTGCC
AAGTACCTGAGTTGCCAACAAGTGAAAGTAGAGCACCAAAGTCCTGGAGGTTTGGCTCAA
ACTTTAGAACTTCTTGAATGGAAGTGGAGATAAATAACATGGACTTTATCACAGGTTTGC
>SL3.0ch02
ATGTACCGCGATTTGAGAGAGGTATATTGGTGGGAAGGCAAAGAGAGAGATATTGTTGCC
AAGTACCTGAGTTGCCAACAAGTGAAAGTAGAGCACCAAAGTCCTGGAGGTTTGGCTCAA
ACTTTAGAACTTCTTGAATGGAAGTGGAGATAAATAACATGGACTTTATCACAGGTTTGC
AAAGATCTCGAAGGCAACATGACTCTAGGTGATTTTCGATAGAATGACAAAGTCATCCCT

Я хочу удалить символы новой строки и все теги'> SL3.0ch00', чтобы в файле была одинаковая строка букв (без пробелов / новой строки / тегов).Любая помощь приветствуется.

Ответы [ 2 ]

0 голосов
/ 10 октября 2018

Использование grep и tr:

grep -v '>' file | tr -d '\n'
0 голосов
/ 10 октября 2018
awk 'BEGIN{ORS=""}; !/>/{print}' test.txt 

ORS - переменная разделителя выходных записей.При значении "" он удаляет \ n

! /> / Выбирает строки, которые не содержат>

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...