Опираясь на ответ @Arun Vinoth, вы, возможно, захотите посмотреть, что вы можете использовать с готовым обнаружением дубликатов , чтобы получить наборы дубликатов, к которым применяется автоматизация слияния.
В качестве альтернативы вы можете создать свое собственное обнаружение дублирования для сопоставления записей в различных полях, где, как вы знаете, существуют обманщики. Я делал похожие вещи для сравнения записей в разных системах, в том числе создавая коды совпадений, чтобы имитировать, как Microsoft выполняет обнаружение дублирования в CRM.
Например, коды совпадения контакта могут быть
1. адрес электронной почты
2. имя, фамилия и компания объединяются без пробелов.
Если вам нужно сопоставить компании, вы можете реализовать алгоритм, подобный stripcompany Scribe, для генерации кодов совпадений на основе названий компаний.
Поскольку это кажется огромной проблемой, вы можете подумать о радикальных решениях, таких как деактивация всего загрязненного набора данных и очистка импорта данных, а затем поиск любой из деактивированных записей, которые были затронуты в промежуточный период, для их объединения, а затем удаление весь загрязненный (деактивированный) набор данных.
Суть в том, что все пути, кажется, приводят к серьезным головным болям, и единственное утешение в том, что вы можете выбрать, какой путь следовать.