У меня очень большой набор данных, структурированный как пример ниже.
Trans_Type Job Num Product Qty Type Color
0 Clean 45678 abcde 1 debit red
1 Refur 45678 abcde 1 debit red
2 Clean 91234 abcde 1 debit red
3 Refur 91234 abcde 1 debit red
4 Clean 22345 bcdef 1 debit blue
5 Refur 22345 bcdef 1 debit blue
6 Clean 23456 cdefg 1 debit yellow
7 Refur 23456 cdefg 1 debit yellow
8 Clean 34567 cdefg 1 debit yellow
9 Clean 56789 cdefg 1 debit yellow
10 Clean 89123 cdefg 1 debit yellow
11 Refur 89123 cdefg 1 debit yellow
12 Clean 12345 defgh 1 debit green
13 Refur 12345 defgh 1 debit green
14 Refur 67891 kjjdbe 1 credit purple
15 Refur 78912 kkghy 12 credit brown
16 Clean 89123 iokyl 1 debit green
17 Clean 34567 attijd 1 debit yellow
18 Clean 89123 asdyy 1 debit green
19 Clean 11234 oluds 1 debit black
20 Dispo 56789 misc 1 debit yellow
21 Build 67891 misc 1 debit purple
22 Build 78912 misc 1 debit brown
23 Clean 11234 misc 1 debit black
Моя задача состоит в том, чтобы посмотреть на строки, где дублируются оба номера задания и цвета (как и строки 0 и 1, оба номера задания и цвета совпадают). Мне нужно удалить дубликаты в этих случаях на основе других столбцов. Таким образом, в случаях, когда Trans_Types включают в себя «Clean» и «Refur», мне нужно удалить «Clean». Но в тех случаях, когда обе транзакции являются кредитом типа, мне нужно удалить любые дубликаты в «Продуктах». Я понятия не имею, как подойти к этому.