Я ищу решение следующей проблемы.У меня есть текстовый файл с в первом столбце geneIDs и во втором одиночном GOterms.Поскольку у каждого гена есть несколько аннотированных GOterms, идентичные идентификаторы gene-идентификатора действительно встречаются несколько раз (с разными GOterms во втором столбце. Я только хочу, чтобы уникальные идентификаторы gene-идентификаторов были объединены с GOterms: У меня есть:
TRINITY_DN10151_c0_g1 GO:0004175
TRINITY_DN10151_c0_g1 GO:0004252
TRINITY_DN10151_c0_g1 GO:0006508
TRINITY_DN10151_c0_g1 GO:0008233
TRINITY_DN102626_c42_g1 GO:0005198
TRINITY_DN102626_c42_g1 GO:0042302
TRINITY_DN102626_c58_g1 GO:0004175
Я хочу:
TRINITY_DN10151_c0_g1 GO:0004175-GO:0004252-GO:0006508-GO:0008233
TRINITY_DN102626_c42_g1 GO:0005198-GO:0042302
и т. Д.
Кроме того, важно (и я действительно не знаю, как решить эту проблему), что каждая комбинация терминов GO встречается один раз, поэтому, если два гена имеют одинаковый термин GOкомбинации (A, B и C) в столбце 2 должны иметь и ABC, и не также ACB.
Я пытался использовать sort и uniq, но в итоге я только удалял строки.
Может кто-нибудь помочь мне с решением Unix?