Я объясняю контекст: у меня есть выход Августа (для 2 видов) с большим количеством последовательностей, я сделал взрыв и получил кластер гомологичных парных последовательностей, и теперь мне нужно только сохранить их с самая высокая идентичность в каждом кластере, и даже бывшие.
Для примера:
у меня на самом деле фрейм данных такой:
custer seq 1 seq2 pident whatever
1 A B 89 47
1 A B 89 68
1 C D 45 90
2 E F 79 25
2 G H 89 45
......
и я хочу получить что-то вроде:
custer seq 1 seq2 pident whatever
1 A B 89 47
1 A B 89 68
2 G H 89 45
На самом деле, я хочу сохранить строку максимального значения в столбце pident внутри каждого кластера, а не только первую, как будет делать следующий скрипт:
data_grpd = data.groupby(['cluster'])
result=data.loc[data_grpd['pident'].idxmax()]
С этим я получаю:
custer seq 1 seq2 pident whatever
1 A B 89 47
2 G H 89 45
Другими словами, если есть бывший, я хочу, чтобы все они были в каждом кластере.
Кто-нибудь может мне помочь?
Спасибо.