Предположим, у меня есть файлы, подобные следующим.
файл 1
1,144931087,144931087,T,C
16,89017167,89017167,C,G
17,7330235,7330235,G,T
17,10222478,10222478,C,T
файл 2
1,144931087,144931087,T,C
16,89017167,89017167,C,G
17,10222478,10222478,C,T
файл 3
17,10222478,10222478,C,T
Я хотел бы выяснить, сколько раз дублированные значения присутствуют в каждом файле, поэтому в идеале вывод будет выглядеть так:
Вывод
2 1,144931087,144931087,T,C
2 16,89017167,89017167,C,G
3 17,10222478,10222478,C,T
1 17,7330235,7330235,G,T
Я использовал следующую команду для подсчета значения дубликатов.
sort Test1.csv Test2.csv Test3.csv | uniq --count
Теперь я хочу добавить имя файла для подсчитанного вывода.Мой желаемый результат должен выглядеть следующим образом:
Test1 Test2 2 1,144931087,144931087,T,C
Test1 Test2 2 16,89017167,89017167,C,G
Test1 Test2 Test 3 3 17,10222478,10222478,C,T
Test1 1 17,7330235,7330235,G,T
Может кто-нибудь помочь мне получить желаемый результат или кто-нибудь может предложить мне лучший способ получить желаемый результат?