Question

Идентифицировать и хранить только строки с дублирующимися элементами в r

У меня большой df с 20 и более столбцами, и мне нужно определить и сохранить строки с дублирующимися элементами из указанных столбцов.Мой подход должен был создать две новые колонки.Первый столбец будет состоять из связанных элементов.Второй столбец будет двоичным, сообщая мне, если данные в первом столбце дублируются.Мой df выглядит так:

Для первого столбца я попытался:

res1 <-mutate(Prac_df, Con_cat =apply(Prac_df[order(PIn, Age, Sex),], 1, function(x) paste0(x, collapse = "_")))

Не думаю, что это сработалои я не уверен, как создать второй столбец, который мне понадобится для запуска логистической регрессии.

И после добавления двух моих столбцов это будет выглядеть так:

h1427096 · Answer 1 · 12 июля 2019

попробуйте это:

library(dplyr)

res1 <- Prac_df %>%  
  group_by(PIN, Age, Sex) %>% 
  mutate(isDuplicated = row_number() > 1) %>% 
  ungroup()

идентифицировать и хранить дубликаты с помощью r

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

идентифицировать и хранить дубликаты с помощью r

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы