Я пытаюсь вернуть df
, где были удалены повторяющиеся значения. Я пытался использовать drop.duplicates()
, но значения в столбцах, которые были subset
, не упорядочены. Как и в случае, значения являются дубликатами, но они не в том же порядке.
Например, используя df
ниже, если я попытаюсь удалить повторяющиеся значения из Item_X
и Item_Y
, он вернет то же самое df
. Где предполагаемый вывод удалит второй ряд.
import pandas as pd
d = ({
'Item_X' : ['Foo','Bar','Bot','Bot','Bar','Foo'],
'Item_Y' : ['Bar','Foo','Foo','Bot','Bar','Foo'],
'Value' : [1,2,3,4,5,6],
})
df = pd.DataFrame(data = d)
df.drop_duplicates(subset=['Item_X','Item_Y'])
Ожидаемый результат:
Item_X Item_Y Value
0 Foo Bar 1
2 Bot Foo 3
3 Bot Bot 4
4 Bar Bar 5
5 Foo Foo 6
Фактический вывод (неверно):
Item_X Item_Y Value
0 Foo Bar 1
1 Bar Foo 2
2 Bot Foo 3
3 Bot Bot 4
4 Bar Bar 5
5 Foo Foo 6
Каков наиболее эффективный способ решения этой проблемы?