У меня есть большая таблица (~ 1 000 000 строк), которая может содержать повторяющиеся значения.
таблица содержит два столбца (например, столбец a, столбец b), которые вместе представляют уникальный ключ, идентификатор и дату последнего обновления.
например, у меня может быть таблица как:
id | а | б | обновление
1 | Джон | Смит | 1/1
2 | Дон | Смит | 2/5
3 | боб | Дэвид | 1/1
4 | Дэн | Льюис | 3/1
5 | боб | Дэвид | 3/1
Как вы можете видеть для id 3 и 5, таблица содержит одинаковые значения в столбцах a и b.
Я хотел бы удалить строки, содержащие этот тип дублирования, но сохранить последнюю обновленную строку.
Для этого примера у меня будет эта таблица после удаления:
id | а | б | обновление
1 | Джон | Смит | 1/1
2 | Дон | Смит | 2/5
4 | Дэн | Льюис | 3/1
5 | боб | Дэвис | 3/1 * 1 029 *
(id = 3 удалено, поскольку у меня уже есть a = bob и b = davis в строке, где id = 5, а обновление в этой строке выше, чем в удаленной строке)