нечеткая проверка дубликатов с использованием python ошибка библиотеки дедупликации - PullRequest
0 голосов
/ 19 января 2020

Я пытаюсь использовать библиотеку дедупликации python, чтобы выполнить нечеткую проверку дубликатов на моих фиктивных данных, но я получаю эту ошибку:

{'Vendor': {0: 'ABC', 1: 'ABC', 2: 'TIM'},
 'Doc Date': {0: '5/12/2019', 1: '5/13/2019', 2: '4/15/2019'},
 'Invoice Date': {0: '5/10/2019', 1: '5/10/2019', 2: '4/10/2019'},
 'Invoice Ref Num': {0: 'ABCDE56.', 1: 'ABCDE56', 2: 'RTET5SDF'},
 'Invoice Amount': {0: '56', 1: '56', 2: '100'}}

IndexError: Невозможно выбрать из пустой последовательности

Вот код, который я использую:

import pandas as pd 
import pandas_dedupe

df = pd.read_csv("duptest.csv") df.columns

df = pandas_dedupe.dedupe_dataframe(df,['Vendor','Invoice Ref Num','Invoice Amount'])

Есть идеи, что я делаю неправильно? Спасибо.

...