У меня есть набор (белковых) последовательностей, которые были найдены с помощью программного обеспечения, но они короче по длине, чем исходные в базе данных. Я загрузил всю базу данных, и теперь у меня есть этот набор неполных последовательностейкоторые были найдены, и исходная база данных, из которой были найдены последовательности.
Пример результата от программного обеспечения:
>tr|E7EWP2|E7EWP2_HUMAN Uncharacterized protein OS=Homo sapiens GN=TRIO PE=4 SV=2
KEFIMAELIQTEKAYVRDLRECMDTYLWEMTSGVE
Последовательность в базе данных:
>tr|E7EWP2|E7EWP2_HUMAN Uncharacterized protein OS=Homo sapiens GN=TRIO PE=4 SV=2
ARRKEFIMAELIQTEKAYVRDLRECMDTYLWEMTSGVEEIP
Таким образом, отсутствующие остатки - «ARR», и, в конце концов, «EIP», у меня есть около 70 неполных последовательностей, как это?Я хотел бы написать программу на Python, которая может автоматически извлекать полные последовательности из базы данных.Я действительно новичок в Python, конечно, я постараюсь написать свой собственный код, я хотел бы знать, есть ли какие-либо библиотеки или что-то вроде модулей биопиона, которые могут сделать это.Мой план состоит в том, чтобы взять интервалы из моего результата, расширить их и выбрать его в исходной базе данных, но я не знаю, как действовать дальше.
Я хотел бы получить list_seq = [ARR,KEFIMAELIQTEKAYVRDLRECMDTYLWEMTSGVE,EIP]
, чтобы я мог дальшеиспользуйте list_seq[0] r.strip(3)
и list_seq[1] l.strip[3]
, чтобы я получил полную последовательность.но list_seq не работает.
Заранее спасибо