Мне нужно создать функцию / выражение, которое сравнивает несколько столбцов ('Cust ID Count'
, 'Revenue'
и, возможно, 'Family Name'
для совпадения записей, а затем сохраняет только первую запись в порядке возрастания. Кроме того, эта функция будет Рассмотрим 2 разных сценария, в которых есть несколько похожих записей:
- Несколько записей будут совпадать во всех столбцах / сериях, за исключением
'street'
(записи 0 & 1
)
- Несколько записей будут совпадать во всех столбцах / рядах, за исключением
'street'
и 'Family Name'
(записи 3 & 4
)
Я понимаю, что, похоже, мы можем использовать только Cust ID
count и Revenue
в качестве соответствующих параметров, но я также хотел бы использовать 'family name'
в качестве опции, если это возможно.
Dataset:
idx Cust ID Count Family Name street Revenue
0 10 Smith spring 50 #match
1 10 Smith wilbur 50 #match
2 45 Jerry jane 35 #not a match
3 25 Cole mary 20 #match
4 25 Stein mary sue 20 #match
Вывод:
idx Cust ID Count Family Name street Revenue
0 10 Smith spring 50 #spring is kept due to alphabetical order
1 45 Jerry jane 35 #not a match
2 25 Cole mary 20 #mary is kept due to alphabetical order