У меня есть длинные данные о том, что люди остаются в каком-то месте в течение нескольких недель, но некоторые записи представляют собой одно пребывание, а другие представляют последовательные пребывания, когда они "повторно повышают" свою регистрацию.
Я хочу определить способ перекодирования данных таким образом, чтобы каждая строка представляла только одно пребывание на человека, сворачивая одно пребывание с несколькими записями в одном ряду.
Я бы хотел сделать это, вытащив истинную дату начала и окончания в одну строку для каждого экземпляра.
Проблема в том, что у нас нет способа сгруппировать это, за исключением случаев, когда предыдущая дата окончания совпадает с последующей датой начала. Количество истинных пребываний и количество многократных въездов за одно пребывание варьируются в широких пределах на человека.
Это пример того, как выглядят данные:
ID Start_Date End_Date
1 05/06/18 05/10/18
1 05/10/18 05/14/18
1 05/14/18 05/25/18
1 06/28/19 07/02/19
1 07/02/19 07/08/19
2 04/20/18 04/23/18
2 07/20/18 07/25/18
2 07/26/18 07/30/18
3 05/14/17 05/29/17
Я хочу, чтобы это выглядело так:
ID Start_Date End_Date
1 05/06/18 05/25/18
1 06/28/19 07/08/19
2 04/20/18 04/23/18
2 07/20/18 07/30/18
3 05/14/17 05/29/17
Я открыт для использования R или SPSS, чтобы решить эту проблему - я баловался с обоими, но продолжаю зацикливаться, особенно потому, что у меня есть некоторые пропущенные даты окончания.