как пронумеровать серию одинаковых имен в файле gtf - PullRequest
0 голосов
/ 24 октября 2019

У меня есть этот файл в формате GTF с 407000 строк. Это заголовок файла:

KQ415659.1      Genbank CDS     55557   55729   .       +       2       transcript_id "rna0"; gene_id "gene0"; gene_name "OCBIM_22028242mg";
KQ415659.1      Genbank CDS     56243   56312   .       +       0       transcript_id "rna0"; gene_id "gene0"; gene_name "OCBIM_22028242mg";
KQ415659.1      Genbank CDS     56940   57046   .       +       2       transcript_id "rna0"; gene_id "gene0"; gene_name "OCBIM_22028242mg";
KQ415659.1      Genbank CDS     61639   61725   .       +       0       transcript_id "rna0"; gene_id "gene0"; gene_name "OCBIM_22028242mg";
KQ415659.1      Genbank CDS     62028   62117   .       +       0       transcript_id "rna0"; gene_id "gene0"; gene_name "OCBIM_22028242mg";
KQ415659.1      Genbank exon    82873   85896   .       -       .       transcript_id "rna1"; gene_id "gene1"; gene_name "OCBIM_22028243mg";
KQ415659.1      Genbank exon    87471   87630   .       -       .       transcript_id "rna1"; gene_id "gene1"; gene_name "OCBIM_22028243mg";
KQ415659.1      Genbank exon    88436   88563   .       -       .       transcript_id "rna1"; gene_id "gene1"; gene_name "OCBIM_22028243mg";

Я хотел бы добавить число рядом с каждым именем гена, чтобы я мог различить их. Например, я хотел бы создать новый файл gtf, например, такой:

KQ415659.1      Genbank CDS     55557   55729   .       +       2       transcript_id "rna0"; gene_id "gene0"; gene_name "OCBIM_22028242mg_1";
KQ415659.1      Genbank CDS     56243   56312   .       +       0       transcript_id "rna0"; gene_id "gene0"; gene_name "OCBIM_22028242mg_2";
KQ415659.1      Genbank CDS     56940   57046   .       +       2       transcript_id "rna0"; gene_id "gene0"; gene_name "OCBIM_22028242mg_3";
KQ415659.1      Genbank CDS     61639   61725   .       +       0       transcript_id "rna0"; gene_id "gene0"; gene_name "OCBIM_22028242mg_4";
KQ415659.1      Genbank CDS     62028   62117   .       +       0       transcript_id "rna0"; gene_id "gene0"; gene_name "OCBIM_22028242mg_5";
KQ415659.1      Genbank exon    82873   85896   .       -       .       transcript_id "rna1"; gene_id "gene1"; gene_name "OCBIM_22028243mg_1";
KQ415659.1      Genbank exon    87471   87630   .       -       .       transcript_id "rna1"; gene_id "gene1"; gene_name "OCBIM_22028243mg_2";
KQ415659.1      Genbank exon    88436   88563   .       -       .       transcript_id "rna1"; gene_id "gene1"; gene_name "OCBIM_22028243mg_3";

Буду признателен за вашу помощь. спасибо

...