У меня есть 2 Dataframes, содержащие твиты о df1 = сыновьях, df = дочери.Анализируя, я заметил, что некоторые строки должны быть идентичными.
в целом <- unique (rbind (df1, df2)) показал, что действительно есть 587 одинаковых строк (вычитая их из df1 + df2). Как их идентифицировать?Или, что еще более важно: исключить их из обоих кадров данных?</p>
Я бы предложил добавить столбец к каждому фрейму данных, в котором хранится информация об имени фрейма данных.Например, df1$origin <- "df1".Затем вы можете rbind фреймы данных.
df1$origin <- "df1"
rbind
Затем вы можете использовать duplicated для идентификации дублированных строк в комбинированном фрейме данных (исключая исходный столбец).Найденные индексы затем можно удалить, а оставшийся кадр данных можно разделить в столбце origin на исходные части.
duplicated
origin
Я думаю duplicated() это то, что вы ищете.
duplicated()
df <- data.frame(1, c("A", "A", "B", "B"), c("A", "A", "B", "B")); colnames(df) <- c("col1", "col2", "col3") df df[!duplicated(df),]