Seqkit - манипулировать регулярным выражением для разбора идентификатора - PullRequest
1 голос
/ 25 мая 2020

Я пытаюсь использовать seqkit rmdup для удаления повторяющихся последовательностей из моих файлов протеина fasta. Однако дублируются только инвентарные номера, а не описание или последовательность. См. Пример ниже.

Host_331002_c0_seq1 95 1381 2 + 
Host_331002_c0_seq1 1873 2112 1 +

Итак, в основном я хочу установить флаг, который будет останавливаться на первой вкладке при поиске идентификаторов (останавливаться после Host_331002_c0_seq1), иначе я не получу никаких дубликатов в моем выходном файле. Этот флаг исправит это, но я не уверен, как управлять регулярным выражением.

--id-regexp string                regular expression for parsing ID (default "^(\\S+)\\s?")

Не могли бы вы помочь с этой проблемой?

Я только начал изучать все языки программирования и не уверен, как это изменить.

1 Ответ

1 голос
/ 29 мая 2020

Регулярное выражение для соответствия любому нулю или более символов до первой вкладки, исключая вкладку:

^[^\t]*

См. доказательство .

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...