Выбор ряда на основе приоритетов / решений - PullRequest
0 голосов
/ 07 декабря 2010

У меня есть data.frame, в котором есть несколько повторяющихся строк, что-то вроде этого:

con <- textConnection(Lines <- "
First, Last, Address, Address 2, Email, Custom1, Custom2, Custom3
A, B, C, D, F@G.com,1,2,3
A, B, C, D, F@G.com,1,2,2
A, B, C, D, F@G.com,1,2,1
")
x <- read.csv(con)
close(con)

Теперь, когда я произвожу дублирование, следующим образом:

x <- x[!duplicated(x[,c("email")]),]

Не могли бы вы порекомендовать метод для определения приоритетности тех строк, которые содержат Custom3 = 1? Или есть лучший механизм для дедупликации?

1 Ответ

1 голос
/ 07 декабря 2010

Попробуйте отсортировать, прежде чем найти дубликаты:

x <- x [порядок (x [, c («Custom3»)]),] <br> x <- x [! продублировано (x [, c («электронная почта»)]),] </p>

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...