Удаление дублированных значений - PullRequest
0 голосов
/ 28 декабря 2018

После очистки и агрегирования данных у меня осталась таблица данных, подобная этой:

df
id d1        v1  d2        v2  d3        v3  d4        v4
1  1-1-2018  1   1-1-2018  1   1-1-2018  1   1-1-2018  1
2  1-1-2018  1   1-2-2018  2   1-2-2018  2   1-2-2018  2
3  1-1-2018  1   1-2-2018  2   1-3-2018  3   1-3-2018  3
4  1-1-2018  1   1-2-2018  2   1-3-2018  3   1-4-2018  4

Я пытаюсь удалить любые значения из столбца в вышеупомянутом фрейме данных, которые являются дубликатами более ранних столбцов.

Я уже пробовал:

df$v2[df$v1 == df$v2] <- NA

это удалило все значения из столбца v2

Я хочу, чтобы мой фрейм данных выглядел так в конце:

df
id d1        v1  d2        v2  d3        v3  d4        v4
1  1-1-2018  1   NA        NA  NA        NA  NA        NA
2  1-1-2018  1   1-2-2018  2   NA        NA  NA        NA
3  1-1-2018  1   1-2-2018  2   1-3-2018  3   NA        NA
4  1-1-2018  1   1-2-2018  2   1-3-2018  3   1-4-2018  4

1 Ответ

0 голосов
/ 28 декабря 2018

Попробуйте df [... условие здесь ...] $ столбец <- NA </p>

Или с data.table:

library(data.table)
dt <- data.table(df)
dt[d1 == d2, v1 := NA]
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...