У меня большой массив данных со множеством столбцов и строк, который получается из многих файлов Excel.Я хотел бы найти файлы, которые приводят к дублированию, так как иногда файлы частично содержат наблюдения, которых не должно быть в файле Excel.Я знаю, что df [df.duplicated (subset = ['A', 'B'], keep = False)] дает мне все повторяющиеся строки.
import pandas as pd
df = pd.DataFrame({'A':[1,1,2,2,2,2,3,3],'B':['Q','Q','R','R','R','P','L','L'],'origin':['file1','file2','file3','file4','file5','file6','file7','file8']})
Я хочу, чтобы результат выглядел как
result = pd.DataFrame({'A':[1,1,2,2,2,3,3],'B':['Q','Q','R','R','R','L','L'],'origin':['file1','file2','file3','file4','file5','file7','file8'],'group':['g1','g1','g2','g2','g2','g3','g3'],'duplicate_count':[2,2,3,3,3,2,2]})
Однако я хотел бы всегда группировать два (или более) соответствующих дубликата, чтобы затем распечатать соответствующие файлы иколичество раз, когда дубликат встречается.Мне не удалось найти ответ.