У меня есть некоторые данные, которые имеют много дубликатов. Например, этот кадр данных показывает идентификаторы в наборе данных, которые, как известно, идентичны (например, строка 1 указывает a = b, поэтому остальные данные указывают, что a = b = c и d = e = f):
a <- c('a','a','b','b','c','c','d','d','e','e','f','f')
b <- c('b','c','a','c','a','b','e','f','d','f','d','e')
duplicates <- cbind(a,b)
Существует ли какой-либо простой способ разделить их на две группы, которые являются истинными идентификаторами (например, здесь a, b и c одинаковы, а d, e & f также одинаковы). Итак, для моих образцов данных:
a <- c('a','b','c','d','e','f')
b <- c('c1','c1','c1','c2','c2','c2')
new_id <- cbind(a,b)
Фактические данные имеют тысячи строк и не полностью связаны (то есть в кластере дубликатов это может произойти: a = b, a = c, b = / = c) из-за некоторых ошибок при обнаружении дубликатов.