Заставить строки с разными значениями в определенном поле никогда не помечать как дубликаты с помощью библиотеки Python Dedupe - PullRequest
0 голосов
/ 25 февраля 2019

Я использую библиотеку Dedupe в Python, чтобы обнаружить и объединить повторяющиеся строки в моих данных.Тем не менее, я не могу найти способ сказать Dedupe, что «если значения для этого поля разные, то эти строки определенно не являются дубликатами».

Рассмотрим следующий пример:

| Store          | Product      | SKU  |
|----------------|--------------|------|
| Good Foods     | Yummy Cereal | P001 |
| Good Foods     | Yummi Cereal | P01  |
| Good Foods     | Steak        | p22  |
| Jack's Grocery | Yummy Cereal | S1   |
| Jack's Grocery | Coke         | S2   |

Я бы хотел найти дубликаты в в каждом магазине, но не в разных магазинах (так как я создал поле Store, я знаю, что нет опечаток или возможных дубликатов).Конечно, я мог бы создать отдельный файл для каждого хранилища, но, поскольку у меня есть сотни хранилищ в моих данных, это потребовало бы обучения сотням файлов и объединению сотен файлов.Если бы был способ сказать, что дубликаты не могут возникать в течение Store с, это сделало бы вещи невероятно проще.

По сути, мой вопрос противоположен этому .

...