У меня есть мультифаст-файл, и мне нужно удалить некоторую часть заголовка для каждого фаст-файла.Например:
>Viridibacillus_arenosi_FSL_R5_0213-BK137_RS04360-22-CBS_domain-containing_protein <unknown description>
GCTAATGAAGTTATTGGCCTAGTGACAGAAAGGGATATAAAAAACGCGCTTCCTTCTTCC
CTGCTC------AAA
>Viridibacillus_arvi_DSM16317-AMD00_RS08865-16-acetoin_utilization_protein_AcuB <unknown description>
GCGAATGAAGTTATTGGCCTAGTAACAGAAAGGGATATAAAAAACGCCCTTCCATCTTCC
CTGCTC------AAA
Мне нужно удалить часть после "-" в заголовке, который является "-BK137_RS04360-22-CBS_domain-содержа_protein" и "-AMD00_RS08865-16-acetoin_utilization_protein_AcuB".
Я пытался
cut -d '-' -f 1 your_file.fasta > new_file.fasta
и
awk '{split($0,a,"-"); if(a[1]) print ">"a[1]; else print; }' my_file.fasta > new_file.fasta
Но это файл выравнивания, он также удалил «-» в моей последовательности, чего, конечно, я не делаюхочу.