Скажем, например, я пытаюсь найти повторяющиеся значения в этом наборе, основываясь на имени, возрасте и стране
NAME AGE COUNTRY PROFESSION
'Fred' 23 America Banker
'Paula' 78 Germany Retired
'Fred' 23 America Banker
'Fred' 22 America Student
'Fred' 23 Brazil Police Officer
'Bingo' 36 New Zealand Money
Чтобы найти точные дубликаты, которые я использовал:
dupDF = df[df.duplicated(['NAME', 'AGE', 'COUNTRY'], keep=False)]
Что дало бы мне:
NAME AGE COUNTRY PROFESSION
'Fred' 23 America Banker
'Fred' 23 America Banker
Что я действительно хочу, так это сопоставить по Имени, Возрасту (+/- 1) и Стране, чтобы получить:
NAME AGE COUNTRY PROFESSION
'Fred' 23 America Banker
'Fred' 23 America Banker
'Fred' 22 America Student
Я пытался использовать представленные здесь решения: Обнаружение почти дублированных строк
Однако я изо всех сил пытаюсь адаптировать решение для принятия нецелых значений.
Я также пытался создать массив (как в: https://stackoverflow.com/a/43160595/10816095), который содержит Age +/- 1, в надежде использовать его для соответствия, но я не могу добавить его к кадру данных.
Как я могу это сделать?