Question

У меня есть 2 Dataframes, содержащие твиты о df1 = сыновьях, df = дочери.Анализируя, я заметил, что некоторые строки должны быть идентичными.

в целом <- unique (rbind (df1, df2)) показал, что действительно есть 587 одинаковых строк (вычитая их из df1 + df2). Как их идентифицировать?Или, что еще более важно: исключить их из обоих кадров данных?</p>

AEF · Answer 1 · 23 мая 2018

Я бы предложил добавить столбец к каждому фрейму данных, в котором хранится информация об имени фрейма данных.Например, df1$origin <- "df1".Затем вы можете rbind фреймы данных.

Затем вы можете использовать duplicated для идентификации дублированных строк в комбинированном фрейме данных (исключая исходный столбец).Найденные индексы затем можно удалить, а оставшийся кадр данных можно разделить в столбце origin на исходные части.

SeGa · Answer 2 · 23 мая 2018

Я думаю duplicated() это то, что вы ищете.

df <- data.frame(1, c("A", "A", "B", "B"), c("A", "A", "B", "B"));
colnames(df) <- c("col1", "col2", "col3")
df
df[!duplicated(df),]

Исключить идентичные строки из 2 кадров данных R

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Исключить идентичные строки из 2 кадров данных R

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов