нечеткое совпадение для SQL с использованием нечеткого wuzzy и pandas - PullRequest
0 голосов
/ 20 января 2020

у меня есть следующая таблица в SQL, и я хочу использовать Fuzzy Wuzzy для сравнения всех записей в таблице на наличие возможных дубликатов, которые в данном примере строки 1 являются дубликатами строки 2 (или наоборот). Может кто-нибудь объяснить, как я могу добавить две дополнительные колонки к этой таблице (наивысший балл и номер строки записи), используя Fuzzy Wuzzy и pandas? Спасибо.

Ввод:

Vendor  Doc Date    Invoice Date       Invoice Ref Num  Invoice Amount
ABC    5/12/2019    5/10/2019          ABCDE56.         56
ABC    5/13/2019    5/10/2019          ABCDE56          56
TIM    4/15/2019    4/10/2019          RTET5SDF         100

Желаемый вывод:

Vendor  Doc Date    Invoice Date    Invoice Ref Num Invoice Amount  Highest Score   Record Line Num
ABC     5/12/2019   5/10/2019       ABCDE56.        56              96              2
ABC     5/13/2019   5/10/2019       ABCDE56         56              96              1
TIM     4/15/2019   4/10/2019       RTET5SDF        100             0               N/A
...