Question

У меня есть data.frame, в котором есть несколько повторяющихся строк, что-то вроде этого:

con <- textConnection(Lines <- "
First, Last, Address, Address 2, Email, Custom1, Custom2, Custom3
A, B, C, D, F@G.com,1,2,3
A, B, C, D, F@G.com,1,2,2
A, B, C, D, F@G.com,1,2,1
")
x <- read.csv(con)
close(con)

Теперь, когда я произвожу дублирование, следующим образом:

x <- x[!duplicated(x[,c("email")]),]

Не могли бы вы порекомендовать метод для определения приоритетности тех строк, которые содержат Custom3 = 1? Или есть лучший механизм для дедупликации?

Miguel A. Friginal · Answer 1 · 07 декабря 2010

Попробуйте отсортировать, прежде чем найти дубликаты:

x <- x [порядок (x [, c («Custom3»)]),] <br> x <- x [! продублировано (x [, c («электронная почта»)]),] </p>

Выбор ряда на основе приоритетов / решений

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Выбор ряда на основе приоритетов / решений

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов