Мне может понадобиться больше информации для решения вашей проблемы, но, надеюсь, это поможет вам.
Здесь я сделал фрейм данных:
import pandas as pd
import numpy as np
df = pd.DataFrame(data={'X': [1,1,2,3,4,5], 'Y':['kept', 'dropped', 2, 3, 4, 5]}); df
что выглядит так ...
X Y
1 kept
1 dropped
2 2
3 3
4 4
5 5
Затем я отбросил неуникальные значения в df['X']
и kept
появление 'first'
значения:
df = df.drop_duplicates(subset=['X'], keep='first');df
Итак, мой df
выглядит так:
X Y
1 kept
2 2
3 3
4 4
5 5
Используя drop_duplicates
, вы можете гарантировать, что только уникальные значения в строке сохраняются как минимум до некоторой логической степени. Однако вы можете также рассмотреть возможность циклического перемещения по фрейму данных с помощью iterrows
, чтобы проверить уникальные значения и одновременно выполнить сравнение. Это очень помогло бы с эффективностью.
В конце концов, если это не то, что вы ищете, пожалуйста, дайте мне знать и / или предоставьте больше информации. Я буду рад помочь!