Изолировать дубликаты записей в качественных группах R - PullRequest
0 голосов
/ 05 декабря 2018

Я хочу знать, возможно ли изолировать дублирующиеся записи на основе значения даты, но внутри групп.Итак, по сути, я хочу извлечь записи, где для данного заголовка, идентификатора и категории, где значения даты совпадают?

Пример:

Title   Title_ID   Category     Date
Title1    2728     Category 1   2013-08-09
Title1    2728     Category 2   2013-10-18
Title1    2728     Category 3   2013-11-05
Title1    2728     Category 4   2013-11-05

Желаемый результат:

Title   Title_ID   Category     Date
Title1    2728     Category 3   2013-11-05
Title1    2728     Category 4   2013-11-05

Есть ли способ сделать это в изящных пакетах R?

Спасибо.

1 Ответ

0 голосов
/ 05 декабря 2018

Две ссылки, которые я отправил вам в комментариях, используются вместе для этого решения.

В первой ссылке показано, как получить все повторяющиеся индексы, а не только первый, с аргументом fromLast в сочетании с оператором |.Второй показывает, как проверить наличие дублирования в нескольких столбцах.Таким образом, вы проверяете строки, которые имеют все одинаковые значения Title, Title_ID и Date.

Последняя строка кода удаляет точные дубликаты, если они есть в вашем фрейме данных.Ваш пример не содержит ничего, и я не совсем понимаю из вашего описания

ind <- duplicated(dt[,c('Title', 'Title_ID', 'Date')]) | duplicated(dt[,c('Title', 'Title_ID', 'Date')], fromLast = T)

dt2 <- dt[ind,]

dt2[!duplicated(dt2),]
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...