Question

Я пытаюсь использовать seqkit rmdup для удаления повторяющихся последовательностей из моих файлов протеина fasta. Однако дублируются только инвентарные номера, а не описание или последовательность. См. Пример ниже.

Host_331002_c0_seq1 95 1381 2 + 
Host_331002_c0_seq1 1873 2112 1 +

Итак, в основном я хочу установить флаг, который будет останавливаться на первой вкладке при поиске идентификаторов (останавливаться после Host_331002_c0_seq1), иначе я не получу никаких дубликатов в моем выходном файле. Этот флаг исправит это, но я не уверен, как управлять регулярным выражением.

--id-regexp string                regular expression for parsing ID (default "^(\\S+)\\s?")

Не могли бы вы помочь с этой проблемой?

Я только начал изучать все языки программирования и не уверен, как это изменить.

Ryszard Czech · Answer 1 · 29 мая 2020

Регулярное выражение для соответствия любому нулю или более символов до первой вкладки, исключая вкладку:

^[^\t]*

См. доказательство .

Seqkit - манипулировать регулярным выражением для разбора идентификатора

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Seqkit - манипулировать регулярным выражением для разбора идентификатора

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы