у меня есть следующая таблица в SQL, и я хочу использовать Fuzzy Wuzzy для сравнения всех записей в таблице на наличие возможных дубликатов, которые в данном примере строки 1 являются дубликатами строки 2 (или наоборот). Может кто-нибудь объяснить, как я могу добавить две дополнительные колонки к этой таблице (наивысший балл и номер строки записи), используя Fuzzy Wuzzy и pandas? Спасибо.
Ввод:
Vendor Doc Date Invoice Date Invoice Ref Num Invoice Amount
ABC 5/12/2019 5/10/2019 ABCDE56. 56
ABC 5/13/2019 5/10/2019 ABCDE56 56
TIM 4/15/2019 4/10/2019 RTET5SDF 100
Желаемый вывод:
Vendor Doc Date Invoice Date Invoice Ref Num Invoice Amount Highest Score Record Line Num
ABC 5/12/2019 5/10/2019 ABCDE56. 56 96 2
ABC 5/13/2019 5/10/2019 ABCDE56 56 96 1
TIM 4/15/2019 4/10/2019 RTET5SDF 100 0 N/A