У меня есть набор данных с несколькими дублированными строками, похожий на:
UniqueID = c(111, 111, 222, 222, 333, 333)
Color = c("Yellow", "Yellow", "Blue", "Blue", "Green", "Pink")
Height = c(11, 12, 22, 23, 33, 33)
df = data.frame(UniqueID, Color, Height)
Внутри группы строк с одним и тем же уникальным идентификатором Я бы хотел выделить любые конфликтующие данные (т.е. данные, которые не идентичны).
Например, в приведенной выше таблице есть три группы, которые определяются их уникальным идентификатором. 111,222 and 333
.
В каждой группе я хотел бы выделить противоречивые данные. Например, в группе 111
я бы выделил, что высота отличается (11 против 12). В группе 222
я бы также выделил высоту. Однако в группе 333
я бы выделил цвет (зеленый против розового)
Мой план состоял в том, чтобы использовать library(DT)
для окраски ячеек, чтобы я мог, по крайней мере, иметь визуальное представление о том, где возникают конфликты а затем начните оценивать, как их решить.
Конечный результат будет выглядеть примерно так:
До сих пор я использовал duplicated
для удаления дубликатов в столбце но изо всех сил пытается решить, как подойти к этой проблеме. Единственный способ, о котором я могу подумать на данный момент, - это поместить все данные в отдельные df на основе уникального идентификатора, а затем выделить дубликаты внутри каждого df, но с 11 000 строк это кажется очень громоздким.
Точка в этом направлении будет очень признательна!