Я пытаюсь использовать seqkit rmdup
для удаления повторяющихся последовательностей из моих файлов протеина fasta. Однако дублируются только инвентарные номера, а не описание или последовательность. См. Пример ниже.
Host_331002_c0_seq1 95 1381 2 +
Host_331002_c0_seq1 1873 2112 1 +
Итак, в основном я хочу установить флаг, который будет останавливаться на первой вкладке при поиске идентификаторов (останавливаться после Host_331002_c0_seq1), иначе я не получу никаких дубликатов в моем выходном файле. Этот флаг исправит это, но я не уверен, как управлять регулярным выражением.
--id-regexp string regular expression for parsing ID (default "^(\\S+)\\s?")
Не могли бы вы помочь с этой проблемой?
Я только начал изучать все языки программирования и не уверен, как это изменить.