Я использую библиотеку Dedupe в Python, чтобы обнаружить и объединить повторяющиеся строки в моих данных.Тем не менее, я не могу найти способ сказать Dedupe, что «если значения для этого поля разные, то эти строки определенно не являются дубликатами».
Рассмотрим следующий пример:
| Store | Product | SKU |
|----------------|--------------|------|
| Good Foods | Yummy Cereal | P001 |
| Good Foods | Yummi Cereal | P01 |
| Good Foods | Steak | p22 |
| Jack's Grocery | Yummy Cereal | S1 |
| Jack's Grocery | Coke | S2 |
Я бы хотел найти дубликаты в в каждом магазине, но не в разных магазинах (так как я создал поле Store
, я знаю, что нет опечаток или возможных дубликатов).Конечно, я мог бы создать отдельный файл для каждого хранилища, но, поскольку у меня есть сотни хранилищ в моих данных, это потребовало бы обучения сотням файлов и объединению сотен файлов.Если бы был способ сказать, что дубликаты не могут возникать в течение Store
с, это сделало бы вещи невероятно проще.
По сути, мой вопрос противоположен этому .