идентифицировать и хранить дубликаты с помощью r - PullRequest
0 голосов
/ 10 июля 2019

Идентифицировать и хранить только строки с дублирующимися элементами в r

У меня большой df с 20 и более столбцами, и мне нужно определить и сохранить строки с дублирующимися элементами из указанных столбцов.Мой подход должен был создать две новые колонки.Первый столбец будет состоять из связанных элементов.Второй столбец будет двоичным, сообщая мне, если данные в первом столбце дублируются.Мой df выглядит так:

enter image description here

Для первого столбца я попытался:

res1 <-mutate(Prac_df, Con_cat =apply(Prac_df[order(PIn, Age, Sex),], 1, function(x) paste0(x, collapse = "_")))

Не думаю, что это сработалои я не уверен, как создать второй столбец, который мне понадобится для запуска логистической регрессии.

И после добавления двух моих столбцов это будет выглядеть так: enter image description here

1 Ответ

0 голосов
/ 12 июля 2019

попробуйте это:

library(dplyr)

res1 <- Prac_df %>%  
  group_by(PIN, Age, Sex) %>% 
  mutate(isDuplicated = row_number() > 1) %>% 
  ungroup()
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...