Я новичок в пандах (прошу прощения, если я использую неправильную терминологию), и в настоящее время я работаю над проектом геномики.У меня возникают проблемы при манипулировании столбцами dataframes после использования drop_duplicates ().Я хочу изменить значения столбца в столбце «мутация» идентификатора, который сохраняется после удаления дубликатов, чтобы указать, что этот идентификатор имеет несколько мутаций.
Мой код:
df = pd.DataFrame([
('MYC', 'nonsense', 's1'),
('MYC', 'missense', 's1'),
('MYCL', 'nonsense', 's1'),
('MYCL', 'missense', 's2'),
('MYCN', 'missense', 's3'),
('MYCN', 'UTR', 's1'),
('MYCN', 'nonsense', 's1')
], columns=['id', 'mutation', 'sample'])
print(df)
Результат:
id mutation sample
0 MYC nonsense s1
1 MYC nonsense s1
2 MYC missense s1
3 MYCL nonsense s1
4 MYCL missense s2
5 MYCN missense s3
6 MYCN UTR s1
7 MYCN nonsense s1
Я пытался использовать drop_duplicates (), и я приближался к тому, что я хочу.Но как мне изменить значение в столбце 'mutation' на 'multi'?
print(df.drop_duplicates(subset=('sample','id')))
id mutation sample
0 MYC nonsense s1
3 MYCL nonsense s1
4 MYCL missense s2
5 MYCN missense s3
6 MYCN UTR s1
Что я хочу:
id mutation sample
0 MYC multi s1
3 MYCL nonsense s1
4 MYCL missense s2
5 MYCN missense s3
6 MYCN multi s1