У меня есть файл с разделителями табуляции:
scaffold_991 201 SYT3
scaffold_991 9396 SYT3
scaffold_991 11241 SYT3
scaffold_991 204 A
scaffold_991 939 A
scaffold_991 1141 A
scaffold_3006 610 TXNL4A
scaffold_3006 614 TXNL4A
scaffold_82 3098096 TXNL4A
scaffold_82 3100933 TXNL4A
scaffold_997 667 SPNS1
scaffold_997 1241 SPNS1
scaffold_997 2722 SPNS1
scaffold_997 3618 SPNS1
scaffold_997 9410 SPNS1
scaffold_997 18724 SPNS1
...
Мне нужно напечатать все строки, для которых имена в поле 3 (SYT3, TXNL4A, SPNS1, ...) не связаны с одним и тем же элементом в поле 1.
Так что вывод будет:
scaffold_3006 610 TXNL4A
scaffold_3006 614 TXNL4A
scaffold_82 3098096 TXNL4A
scaffold_82 3100933 TXNL4A
Или, если это проще, это также должно работать:
scaffold_991 201 SYT3
scaffold_991 9396 SYT3
scaffold_991 11241 SYT3
scaffold_991 204 A
scaffold_991 939 A
scaffold_991 1141 A
scaffold_997 667 SPNS1
scaffold_997 1241 SPNS1
scaffold_997 2722 SPNS1
scaffold_997 3618 SPNS1
scaffold_997 9410 SPNS1
scaffold_997 18724 SPNS1
другими словами, один и тот же повторяющийся элемент в столбце 3 должен быть связан с повторениями одного и того же элемента в столбце 1.
Я не смог найти подобный вопрос и не знаю достаточно, чтобы попробоватьсамостоятельно.
У меня также есть список уникальных элементов в столбце 3 (SYT3, TXNL4A, SPNS1).
И я заметил, что порядок 1-го столбца будет разбивать повторения одного и того же элемента в столбце 3только если этот элемент объединен с более чем одним каркасом, что приводит к:
scaffold_82 3098096 TXNL4A
scaffold_82 3100933 TXNL4A
scaffold_991 201 SYT3
scaffold_991 9396 SYT3
scaffold_991 11241 SYT3
scaffold_991 204 A
scaffold_991 939 A
scaffold_991 1141 A
scaffold_997 667 SPNS1
scaffold_997 1241 SPNS1
scaffold_997 2722 SPNS1
scaffold_997 3618 SPNS1
scaffold_997 9410 SPNS1
scaffold_997 18724 SPNS1
scaffold_3006 610 TXNL4A
scaffold_3006 614 TXNL4A
...
Я предполагаю идентифицировать случаи, когда данный элемент в столбце 3 повторяется по крайней мере секундувремя в другом месте в файле (разделенное другим элементом) было бы другим способом думать об этом:
Чтобы я мог получить вывод:
scaffold_3006 610 TXNL4A
scaffold_3006 614 TXNL4A
иможет затем удалить все строки, содержащие TXNL4A
.