Определение разных строк между двумя наборами данных в R - PullRequest
0 голосов
/ 28 июня 2010

У меня есть два файла данных в формате CSV, разделенных табуляцией. Файлы в следующем формате:

EP Code    EP Name    Address    Region    ...
101654    Alpha     York Street    Northwest    ...
103628    Beta    5th Avenue    South    ...

EP коды являются уникальными. Я хочу сравнить два файла с кодами EP, определить различные строки и записать их в новый файл.

Например, file1.csv имеет 800 строк, а file2.csv имеет 850 строк. file2 может быть файлом, полностью включающим file1 плюс 50 строк; или это может быть file1 - 10 rows + 60 rows. Я хочу определить различия между двумя наборами данных. Меня не интересуют взаимные ряды.

Как я могу сделать это в R?

1 Ответ

3 голосов
/ 28 июня 2010

Есть много способов сделать это, включая setdiff, intersect, функцию %in%, is.element.Просто найдите пересекающийся набор и исключите его, используя !:

diff1 <- file1[setdiff(file1$ep.code, file2$ep.code),]

или

diff2 <- file2[!(intersect(file2$ep.code, file1$ep.code)),]
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...