У меня есть список олиго ДНК для заказа, которые имеют много повторяющихся последовательностей. Тем не менее, мне нужно, чтобы они были в паре с Идентификатором, для которого плазмида использовать их.
Другими словами, мне нужен этот фрейм данных:
Oligo_sequence Plasmid
0 "ATG" "Plasmid A"
1 "ATG" "Plasmid B"
2 "CAG" "Plasmid C"
Чтобы стать:
Oligo_sequence Plasmid
0 "ATG" ["Plasmid A","Plasmid B"]
1 "CAG" ["Plasmid C"]
Я думал, что подобная функция, вероятно, будет работать. Но я не знаю, как определить дубликаты.
for index, row in df.iterrows():
plasmidlist = [row[1]]
if duplicate == True: #Is their a dublicate function I can use?
plasmidlist.append(duplicaterow[1])
drop(dublicaterow)
df.at[row,'Plasmid']= plasmidlist