Удаление дубликатов во временных рядах на основе других столбцов с использованием R - PullRequest
0 голосов
/ 01 апреля 2020

В настоящее время я работаю над проблемой, которая включает в себя очистку и расчет данных следующим образом: здесь я создал образец набора данных для отдельной единицы A. Данные сортируются в соответствии со столбцом временных меток для каждой единицы. Есть и другие столбцы. Для каждого отдельного альтернативного значения event_log_value_desc мне нужно получить строки. В случае множественных повторяющихся значений event_log_value_desc он должен вернуть строку с первым вхождением event_log_value_desc. event_log_value_desc должно иметь альтернативные значения OFF и ON для каждого устройства.

В свою очередь, программа должна вернуть следующее:

enter image description here

1 Ответ

0 голосов
/ 01 апреля 2020

Я не знаю, работает ли это решение, поскольку оно не было проверено на вашем наборе данных, но я считаю, что оно должно быть в порядке

library(dplyr)

df %>% 
  group_by(unit) %>% 
  mutate(event_log_value_desc_lag = lag(event_log_value_desc)) %>% 
  filter(event_log_value_desc != event_log_value_desc_lag | is.na(event_log_value_desc_lag))
...