1. Сначала сделайте резервную копию всех данных. Никогда не больно говорить это!
2. Установите разумный размер выборки, т. Е. Сколько записей вы хотите просмотреть в деталях, частично исходя из вашего времени / денег и ценности исправленных точных данных.
3. Создайте список, скажем, в электронной таблице этих записей.
4. Если вы можете, определите (внешне), какие из них реальны, возможно, используя адрес электронной почты или другие поля для сравнения с другими данными.
5. Ищите узоры. Есть ли какое-то отдельное поле: - id, date, user_id и т. Д., Которое выглядит так, как будто оно поможет вам узнать, какие записи хороши? Поиск шаблонов значений, диапазонов низких / высоких значений, дублированных «выборочных» данных (одно и то же значение для столбца во многих записях), даты без времени, записи с потерянными внешними идентификаторами, есть удивительное количество вещей, которые вы можете проверить!
6. Определите свой окончательный допуск - вы ищете 100%? Или 99,94% исправленных будет в порядке (хорошо, тогда!) Для пользователей?
7. Посмотрите на те дубликаты, которые вы упомянули. Для этих записей, можете ли вы применить какое-либо правило, такое как «старая запись» или «более новая запись» или низкий идентификационный номер, чтобы хотя бы устранить их?
Надеюсь, это поможет!