Рассчитать продолжительность между входами и выходом - оптимизация кода - PullRequest
0 голосов
/ 23 марта 2019

У меня есть некоторые данные с:

  • Уникальный идентификатор
  • Действие (вход или выход)
  • отметка времени
  • ID здания и некоторые другие столбцы.

Я пытаюсь рассчитать время, проведенное в здании, на основе входа, выхода, идентификатора здания и уникального идентификатора (номер машины).

Прямо сейчас я сортирую свой фрейм данных по уникальному идентификатору, а затем по дате и применяю этот алгоритм:

    For each row {
        if row.type = 'entry' and nextRow.type = 'exit' and row.uid = nextRow.uid {
        Calculate time difference and add this data to another df.
        }
    }

Требуется некоторое время для запуска, хотя у меня всего 6000 строк ... Я не очень знаком с R и думаю, что есть способы ускорить это ...

Код указан ниже:

# Sort rows: 
BldActivity <- BldActivity[order(BldActivity$UniqueId, BldActivity$DateOfEvent),]


df = data.frame(NULL)
DurationOfStay <- data.frame(NULL) 

for(i in 1:nrow(BldActivity)) {
    row <- BldActivity[i,]
    # do stuff with row
    if(row$Type == 'entry') {
        rowNext <- BldActivity[i+1,] 
        if(!is.na(rowNext$Type)) {
            if(rowNext$Type == 'exit' && row$UniqueId == rowNext$UniqueId)
            {
                        newRow <- data.frame( Entry_DateOfEvent = row$DateOfEvent,
                                        Exit_DateOfEvent  = rowNext$DateOfEvent,

                                        BuildingID = row$BuildingID,
                                        BuildingName = row$`Building Name`,
                                        UniqueId = row$UniqueId,
                                        DurationOfStay = difftime(rowNext$DateOfEvent, row$DateOfEvent, units="mins")
                                        )

                    DurationOfStay <- rbind(DurationOfStay,newRow)
            }
        }
    }
}

Не могли бы вы указать мне на возможные улучшения?

Вот пример ввода:

DateOfEvent Type    UniqueId    BuildingID  Building Name
2019/03/22 09:15:43 entry   04352e5b6051c311048a5803f8716700    1e98f5c0e699    Building 2
2019/03/22 09:51:45 exit    04352e5b6051c311048a5803f8716700    1e98f5c0e699    Building 2
2019/03/22 10:31:28 entry   066b9a3995acd495318ad70e0d876f00    062e933d6b9f    Building 1
2019/03/22 11:15:02 exit    066b9a3995acd495318ad70e0d876f00    062e933d6b9f    Building 1
2019/03/22 11:11:42 entry   0e027aba359aaecbe8fe3eaf5a1bbb00    062e933d6b9f    Building 1
2019/03/22 14:44:27 exit    0e027aba359aaecbe8fe3eaf5a1bbb00    062e933d6b9f    Building 1
2019/03/22 09:55:03 entry   1747dbaef11176b9ab90f2cfbf056210    1e98f5c0e699    Building 2
2019/03/22 18:13:08 exit    1747dbaef11176b9ab90f2cfbf056210    1e98f5c0e699    Building 2
2019/03/21 14:23:53 entry   3e0d2c4b1b159a24f4dc5fa084b59f00    1e98f5c0e699    Building 2
2019/03/21 15:36:31 exit    3e0d2c4b1b159a24f4dc5fa084b59f00    1e98f5c0e699    Building 2

Выходными данными являются только значения столбцов для IN / OUT и рассчитанная длительность.

Спасибо

Philippe

Ответы [ 2 ]

0 голосов
/ 24 марта 2019

спасибо за ваш код, он выглядит очень многообещающе.У меня действительно есть 2 проблемы:

Во-первых, была проблема с функцией агрегирования, которая выдает ошибку:

Агрегирующие функции должны принимать входные данные вектора и возвращать одинзначение (длина = 1).

Я решил это, добавив функцию агрегирования

fun.aggregate = function(x) { 
   lubridate::as_datetime(ifelse(Type == 'entry', min(x), max(x)))
}

Я также добавил идентификатор для группировки записей / выходов на основе уникального идентификатора., идентификатор здания и и тип (вход / выход)

Вот новый код:

setDT(BldActivity)
BldActivity[, ID_Stay := seq_len(.N), by=list(UniqueId, BuildingID, Type)]
DwellTime <- dcast(BldActivity, UniqueId + BuildingID + `Building Name` ~ Type, value.var = "DateOfEvent", 
fun.aggregate = function(x) {
    lubridate::as_datetime(ifelse(Type == 'entry', min(x), max(x)))},
  fill = 0)
DurationOfStay[, DurationOfStay := difftime(exit, entry, units="mins"), ]

Но у меня есть очень странные значения ... Причина в том, что если у меня есть2 записи и никаких выходов между ними, вся последовательность испорчена.

Вот пример: example

Спасибо

Филипп

0 голосов
/ 23 марта 2019
library(data.table)
setDT(BldActivity)
DurationOfStay <- dcast(BldActivity, UniqueId + BuildingID + `Building Name` ~ Type, value.var = "DateOfEvent")
DurationOfStay[, DurationOfStay := difftime(exit, entry, units="mins"), ]
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...