Я испытываю трудности при попытке отредактировать рабочий скрипт на Python.
У меня есть 2 файла:
- .txt-файл, содержащий идентификаторы
- .fasta-файл, в котором есть последовательности Fasta с их идентификаторами.
Цель этого сценария - сравнить 2 файла, и как только идентификатор из первого файла совпадает с последовательностью, а его идентификатор - из второго файла, на выходе должен быть идентификатор, полная последовательность иего идентификатор.
Сценарий, который у меня есть, получает в качестве выходных данных идентификатор первого файла и только текст последовательности без его идентификатора.
введите описание изображения здесь
Это скрипт:
with open('uniprot_reviewed_taxonomy_9606.fasta', 'r') as f:
for line in f.readlines():
line = line.replace("\n", "")
if line.startswith('>'):
full_name = line.split('|')
accession_x = full_name[1]
print(accession_x)
else:
print (line)
with open('homosapiens_output1.txt', 'r') as f1:
for line1 in f1.readlines()[1:]: # ignores the first line
line1 = line1.replace("\n", "")
full_name1 = line1.split(' ')
accession_y = full_name1[0].replace(" ", "")
accession_z = full_name1[1].replace(" ", "")
main_accession = accession_x + " " + accession_z + " " + accession_y + " " + line
if accession_x == accession_z:
print(main_accession)
Так что вы можете помочь мне, отредактировав скрипт такможет на выходе будет идентификатор, последовательность Фаста и его идентификатор?