Исключить идентичные строки из 2 кадров данных R - PullRequest
0 голосов
/ 23 мая 2018

У меня есть 2 Dataframes, содержащие твиты о df1 = сыновьях, df = дочери.Анализируя, я заметил, что некоторые строки должны быть идентичными.

в целом <- unique (rbind (df1, df2)) показал, что действительно есть 587 одинаковых строк (вычитая их из df1 + df2). Как их идентифицировать?Или, что еще более важно: исключить их из обоих кадров данных?</p>

Ответы [ 2 ]

0 голосов
/ 23 мая 2018

Я бы предложил добавить столбец к каждому фрейму данных, в котором хранится информация об имени фрейма данных.Например, df1$origin <- "df1".Затем вы можете rbind фреймы данных.

Затем вы можете использовать duplicated для идентификации дублированных строк в комбинированном фрейме данных (исключая исходный столбец).Найденные индексы затем можно удалить, а оставшийся кадр данных можно разделить в столбце origin на исходные части.

0 голосов
/ 23 мая 2018

Я думаю duplicated() это то, что вы ищете.

df <- data.frame(1, c("A", "A", "B", "B"), c("A", "A", "B", "B"));
colnames(df) <- c("col1", "col2", "col3")
df
df[!duplicated(df),]
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...