редактирование определенного столбца в файле аннотации - PullRequest
0 голосов
/ 27 ноября 2018

Я пытаюсь отредактировать файл аннотации.Таблица выглядит следующим образом:

chr10   HAVANA  gene    92834713        93059493        .       +       .       gene_id "ENSG00000138190.16"
chr10   HAVANA  gene    92878092        92878289        .       -       .       gene_id "ENSG00000225118.1"
chr10   HAVANA  gene    93059663        93060426        .       -       .       gene_id "ENSG00000226425.1"
chr10   HAVANA  gene    93060808        93069536        .       +       .       gene_id "ENSG00000187553.8"

Я хочу удалить ген 'version' в столбце gene_id и получить что-то вроде "ENSG00000187553" вместо "ENSG00000187553.8"

chr10   HAVANA  gene    92834713        93059493        .       +       .       gene_id "ENSG00000138190"
chr10   HAVANA  gene    92878092        92878289        .       -       .       gene_id "ENSG00000225118"
chr10   HAVANA  gene    93059663        93060426        .       -       .       gene_id "ENSG00000226425"
chr10   HAVANA  gene    93060808        93069536        .       +       .       gene_id "ENSG00000187553"

есть идеи, как я могу это сделать?(используя awk или другую подобную команду)

1 Ответ

0 голосов
/ 27 ноября 2018

Вы можете сделать замену, чтобы удалить версию из последнего поля:

$ awk '{sub(/[.][0-9]+"/, "\"", $NF)}1' file
chr10 HAVANA gene 92834713 93059493 . + . gene_id "ENSG00000138190"
chr10 HAVANA gene 92878092 92878289 . - . gene_id "ENSG00000225118"
chr10 HAVANA gene 93059663 93060426 . - . gene_id "ENSG00000226425"
chr10 HAVANA gene 93060808 93069536 . + . gene_id "ENSG00000187553"

Поскольку рассматриваемое поле является последним, как указано в комментариях, более удачным вариантом может быть обработкалинии в целом и таким образом сохранить исходный интервал:

$ awk '{sub(/[.][0-9]+"/, "\"")}1' file
chr10   HAVANA  gene    92834713        93059493        .       +       .       gene_id "ENSG00000138190"
chr10   HAVANA  gene    92878092        92878289        .       -       .       gene_id "ENSG00000225118"
chr10   HAVANA  gene    93059663        93060426        .       -       .       gene_id "ENSG00000226425"
chr10   HAVANA  gene    93060808        93069536        .       +       .       gene_id "ENSG00000187553"
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...