У меня есть файл в следующем формате:
ENSG00000087510 ENST00000201031 TFAP2C transcription_factor protein_coding
Где каждый столбец разделен вкладкой.
Как видите, есть 5 столбцов. Столбец 1 представляет собой список избыточных идентификаторов, каждый из которых соответствует другому уникальному идентификатору в столбце 2. Избыточные идентификаторы в столбце 1 разбросаны по всему файлу.
Я попробовал следующую команду, чтобы сгенерировать уникальный список идентификаторов из первого столбца, но я не знаю, как сопоставить его со вторым столбцом.
cat Chr20_gene_transcript_namelist.txt | cut -f 1 | sort | uniq
Мне нужен файл из двух столбцов: уникальные идентификаторы в столбце 1 и все идентификаторы, которым они соответствуют в столбце 2.
Например:
ENSG00000087510 ENST00000201031
ENST00000202017
ENST00000217133
ENSG00000100983 ENST00000217131
ENST00000217246
ENST00000237527
ENSG00000132823 ENST00000255174