Как быстро конвертировать разные форматы времени в большие кадры данных? - PullRequest
2 голосов
/ 25 июня 2019

Я хочу рассчитать длину в разных измерениях времени, но у меня есть проблемы, связанные с двумя немного разными форматами времени в моем столбце фрейма данных.

Исходный столбец фрейма данных содержит около миллиона строк с двумя смешанными форматами (показанными в примере кода).

Пример кода:

time <- c("2018-07-29T15:02:05Z", "2018-07-29T14:46:57Z",
         "2018-10-04T12:13:41.333Z", "2018-10-04T12:13:45.479Z")

length <- c(15.8, 132.1, 12.5, 33.2)

df <- data.frame(time, length)

df$time <- format(as.POSIXlt(strptime(df$time,"%Y-%m-%dT%H:%M:%SZ", tz="")))
df

Форматы "2018-10-04T12:13:41.333Z" и "2018-10-04T12:13:45.479Z" приводят к NA.

Существует ли решение, которое также применимо к большому фрейму данных, в котором смешаны два формата?

Ответы [ 3 ]

3 голосов
/ 25 июня 2019

Мы можем использовать %OS вместо %S для учета десятичных знаков в секундах.

help("strptime")

Специфическим для R является %OSn, что для вывода дает усеченные секунды до 0 <= n <= 6 десятичных знаков (и если% OS не сопровождается цифрой, оноиспользует настройку getOption ("digits.secs") или, если она не установлена, n = 0).</p>

as.POSIXct(time, format="%Y-%m-%dT%H:%M:%OSZ")
# [1] "2018-07-29 15:02:05 CEST" "2018-07-29 14:46:57 CEST"
# [3] "2018-10-04 12:13:41 CEST" "2018-10-04 12:13:45 CEST"

Этот базовый код R значительно быстрее , чем пакетные решения, попробуйте сами.

Обновление 1

time2 <- c("2018-09-01T12:42:37.000+02:00", "2018-10-01T11:42:37.000+03:00")

Этот хитрее.?strptime говорит, что мы должны использовать %z для смещений от UTC, но почему-то это не будет работать с as.POSIXct.Вместо этого мы могли бы сделать это,

as.POSIXct(substr(time2, 1, 23), format="%Y-%m-%dT%H:%M:%OS") + 
  {os <- as.numeric(el(strsplit(substring(time2, 24), "\\:")))
  (os[1]*60 + os[2])*60}
# [1] "2018-09-01 14:42:37 CEST" "2018-10-01 13:42:37 CEST"

, который вырезает нечитаемую часть из строки, преобразует ее в секунды и добавляет к объекту "POSIXct".

Если есть только часов, как в time2, мы могли бы также сказать:

as.POSIXct(substr(time2, 1, 23), format="%Y-%m-%dT%H:%M:%OS") + 
  as.numeric(substr(time2, 24, 26))*3600
# [1] "2018-09-01 14:42:37 CEST" "2018-10-01 13:42:37 CEST"

То, что код теперь немного длиннее, не должен заслонять тот факт, что он работает практически так же быстро, как и код наверхуответ.

Обновление 2

Вы можете обернуть текущие три варианта в функцию со структурой if (nchar(x) == 29) ... else, например, такой:

fixDateTime <- function(x) {
  s <- split(x, nchar(x))
  if ("20" %in% names(s))
    s$`20` <- as.POSIXct(s$`20` , format="%Y-%m-%dT%H:%M:%SZ")
  else if ("24" %in% names(s))
    s$`24` <- as.POSIXct(s$`24`, format="%Y-%m-%dT%H:%M:%OSZ")
  else if ("29" %in% names(s))
    s$`29` <- as.POSIXct(substr(s$`29`, 1, 23), format="%Y-%m-%dT%H:%M:%OS") + 
      {os <- as.numeric(el(strsplit(substring(s[[3]], 24), "\\:")))
      (os[1]*60 + os[2])*60}
  return(unsplit(s, nchar(x)))
}

res <- fixDateTime(time3)
res
# [1] "2018-07-29 15:02:05 CEST" "2018-10-04 00:00:00 CEST" "2018-10-01 00:00:00 CEST"
str(res)
# POSIXct[1:3], format: "2018-07-29 15:02:05" "2018-10-04 00:00:00" "2018-10-01 00:00:00"

По сравнению с пакетамитолько fixDateTime может обрабатывать все три определенных типа даты и времени.В соответствии с заключительным тестом, функция все еще очень быстрая.

Примечание: Функция логически завершается ошибкой, если разные форматы даты имеют одинаковые nchar, и она должнабыть настроенным в случае (например, другим split условием)!Не проверено: поведение перехода на летнее время при добавлении секунд к POSIXct.

Тест

# Unit: milliseconds
#        expr       min        lq      mean    median        uq       max neval  cld
# fixDateTime  35.46387  35.94761  40.07578  36.05923  39.54706  68.46211    10   c 
#  as.POSIXct  20.32820  20.45985  21.00461  20.62237  21.16019  23.56434    10  b   # to compare
#   lubridate  11.59311  11.68956  12.88880  12.01077  13.76151  16.54479    10 a    # produces NAs! 
#     anytime 198.57292 201.06483 203.95131 202.91368 203.62130 212.83272    10    d # produces NAs!

Данные

time <- c("2018-07-29T15:02:05Z", "2018-07-29T14:46:57Z", "2018-10-04T12:13:41.333Z", 
"2018-10-04T12:13:45.479Z")
time2 <- c("2018-07-29T15:02:05Z", "2018-07-29T15:02:05Z", "2018-07-29T15:02:05Z") 
time3 <- c("2018-07-29T15:02:05Z", "2018-10-04T12:13:41.333Z", 
           "2018-10-01T11:42:37.000+03:00") 

Код теста

n <-  1e3
t1 <- sample(time2, n, replace=TRUE)
t2 <- sample(time3, n, replace=TRUE)

library(lubridate)
library(anytime)
microbenchmark::microbenchmark(fixDateTime=fixDateTime(t2),
                               as.POSIXct=as.POSIXct(t1, format="%Y-%m-%dT%H:%M:%OSZ"),
                               lubridate=parse_date_time(t2, "ymd_HMS"),
                               anytime=anytime(t2),
                               times=10L)
2 голосов
/ 25 июня 2019

или вы также можете использовать:

time<- c("2018-07-29T15:02:05Z",
         "2018-07-29T14:46:57Z",
         "2018-10-04T12:13:41.333Z",
         "2018-10-04T12:13:45.479Z")

length<-c(15.8,132.1,12.5,33.2)

df<-data.frame(time,length)
library(lubridate)

# df$time2<-as_datetime(df$time)
df$time2 <-parse_date_time(df$time, "ymd_HMS") 
df
2 голосов
/ 25 июня 2019

Вы можете использовать библиотеку anytime

    library(anytime)
    time<- c("2018-07-29T15:02:05Z",
             "2018-07-29T14:46:57Z",
             "2018-10-04T12:13:41.333Z",
             "2018-10-04T12:13:45.479Z")
    anytime(time)
#[1] "2018-07-29 15:02:05 CEST" "2018-07-29 14:46:57 CEST" "2018-10-04 12:13:41 CEST" "2018-10-04 12:13:45 CEST"
...