Изменить имя последовательности, добавив номер для дубликата - PullRequest
0 голосов
/ 09 мая 2018

У меня на самом деле есть датафрейм такой:

old_name       new_name      pident       length
gene1_0035_0042            geneA         100          560
gene2_0035_0042            geneA         100          545
gene3_0042_0035            geneB         99           356
gene4_0042_0035            geneB         97           256
gene6_0035_0042            geneB         96           567

и вот файл fasta (пример):

>gene1_0035_0042
ATTGAC
>gene2_0035_0042 
ATGAGCC
>gene3_0042_0035
AGCCAG
>gene4_0042_0035
AGCCAT
>gene6_0035_0042
AGCCATG

на самом деле я написал скрипт для замены в файле fasta old_name последовательности на new_name, выполнив: (qseqid = old_name и Busco_ID = new_names в ex).

blast=pd.read_table("matches_Busco_0035_0042_best_hit.m8",header=None)
blast.columns = ["qseqid", "Busco_ID", "pident", "length", "mismatch", "gapopen","qstart", "qend", "sstart", "send", "evalue", "bitscore"]

repl = blast[blast.pident > 95]

repl.to_csv("busco_blast_non-rename.txt",sep='\t')

qseqid=repl.ix[:,0]
Busco_ID=repl.ix[:,1]

newfile = []
count = 0
running_inds = {}

for rec in SeqIO.parse("concatenate_0035_0042_dna2.fa", "fasta"):
    #get corresponding value for record ID from dataframe
    #repl["seq"] and "newseq" are the pandas column with the old and new sequence names, respectively
    x = repl.loc[repl["qseqid"] == rec.id, "Busco_ID"]
    #change record, if not empty
    if x.any():
        #append old identifier number to the new id name
        running = running_inds.get(x.iloc[0], 1) # Get the running index for this sequence
        running_inds[x.iloc[0]] = running + 1
        rec.name = rec.description = rec.id = x.iloc[0] + rec.id[rec.id.index("_"):]
        count += 1
    #append record to list
    newfile.append(rec)

#write list into new fasta file
SeqIO.write(newfile, "concatenate_with_busco_names_0035_0042_dna.fa", "fasta")
#tell us, how hard you had to work for us
print("I changed {} entries!".format(count))

как вы можете видеть, я только фильтрую свою последовательность, сохраняя их с pident> 95, но, как вы можете видеть, я получу для всех этих последовательностей одно и то же имя, которое является new_name, но вместо этого я хотел бы добавить номер в конце нового имени. Для приведенного выше примера это даст в файле fasta:

>geneA_0035_0042_1
ATTGAC
>geneA_0035_0042_2
ATGAGCC
>geneB_0042_0035_1
AGCCAG
>geneB_0042_0035_2
AGCCAT
>geneB_0035_0042_1
AGCCATG

и т. Д. вместо:

>geneA_0035_0042
ATTGAC
>geneA_0035_0042
ATGAGCC
>geneB_0042_0035
AGCCAG
>geneB_0042_0035
AGCCAT
>geneB_0035_0042
AGCCATG

как делает мой скрипт

Спасибо за вашу помощь :)

выпуск:

Я получил:

>EOG090X0FA0_0042_0042_1
>EOG090X0FA0_0042_0035_2
>EOG090X0FA0_0035_0035_3
>EOG090X0FA0_0035_0042_4

но так как они все разные, я должен получить:

>EOG090X0FA0_0042_0042_1
>EOG090X0FA0_0042_0035_1
>EOG090X0FA0_0035_0035_1
>EOG090X0FA0_0035_0042_1

1 Ответ

0 голосов
/ 09 мая 2018

Добавить словарь перед началом цикла:

running_inds = {}
for rec in SeqIO.parse("concatenate_0035_0042_dna2.fa", "fasta"):

Теперь, когда вы выполняете

rec.name = rec.description = rec.id = x.iloc[0] + rec.id[rec.id.index("_"):]

сначала сделайте следующее:

running = running_inds.get(x.iloc[0] + rec.id[rec.id.index("_"):], 1) # Get the running index for this sequence
running_inds[x.iloc[0] + rec.id[rec.id.index("_"):]] = running + 1

теперь просто добавьте это к имени:

rec.name = rec.description = rec.id = x.iloc[0] + rec.id[rec.id.index("_"):] + '_' + str(running)
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...