Почему dmy () в пакете lubridate не работает с NA?Что такое хороший обходной путь? - PullRequest
11 голосов
/ 31 октября 2011

Я наткнулся на странное поведение в пакете lubridate: dmy(NA) выдает ошибку, а не просто возвращает NA.Это вызывает у меня проблемы, когда я хочу преобразовать столбец с некоторыми элементами, являющимися NA, и некоторыми строками даты, которые обычно преобразуются без проблем.

Вот минимальный пример:

library(lubridate)
df <- data.frame(ID=letters[1:5],
              Datum=c("01.01.1990", NA, "11.01.1990", NA, "01.02.1990"))
df_copy <- df
#Question 1: Why does dmy(NA) not return NA, but throws an error?
df$Datum <- dmy(df$Datum)
Error in function (..., sep = " ", collapse = NULL)  : invalid separator
df <- df_copy
#Question 2: What's a work around?
#1. Idea: Only convert those elements that are not NAs
#RHS works, but assigning that to the LHS doesn't work (Most likely problem::
#column "Datum" is still of class factor, while the RHS is of class POSIXct)
df[!is.na(df$Datum), "Datum"] <- dmy(df[!is.na(df$Datum), "Datum"])
Using date format %d.%m.%Y.
Warning message:
In `[<-.factor`(`*tmp*`, iseq, value = c(NA_integer_, NA_integer_,  :
invalid factor level, NAs generated
df #Only NAs, apparently problem with class of column "Datum"
ID Datum
1  a  <NA>
2  b  <NA>
3  c  <NA>
4  d  <NA>
5  e  <NA>
df <- df_copy
#2. Idea: Use mapply and apply dmy only to those elements that are not NA
df[, "Datum"] <- mapply(function(x) {if (is.na(x)) {
                                 return(NA)
                               } else {
                                 return(dmy(x))
                               }}, df$Datum)
df #Meaningless numbers returned instead of date-objects
ID     Datum
1  a 631152000
2  b        NA
3  c 632016000
4  d        NA
5  e 633830400

ToПодводя итог, у меня есть два вопроса: 1) Почему dmy (NA) не работает?Основываясь на большинстве других функций, я бы предположил, что это хорошая практика программирования, что каждое преобразование (например, dmy ()) NA снова возвращает NA (как это делает 2 + NA)?Если такое поведение предназначено, как мне преобразовать столбец data.frame, включающий NA s, с помощью функции dmy()?

Ответы [ 2 ]

6 голосов
/ 31 октября 2011

Error in function (..., sep = " ", collapse = NULL) : invalid separator вызывается функцией lubridate:::guess_format(). NA передается как sep при вызове на paste(), в частности на fmts <- unlist(mlply(with_seps, paste)). Вы можете улучшить lubridate:::guess_format(), чтобы исправить это.

В противном случае, вы могли бы просто изменить NA на символы ("NA")?

require(lubridate)
df <- data.frame(ID=letters[1:5],
    Datum=c("01.01.1990", "NA", "11.01.1990", "NA", "01.02.1990")) #NAs are quoted
df_copy <- df

df$Datum <- dmy(df$Datum)
3 голосов
/ 31 октября 2011

Поскольку ваши даты представлены в достаточно прямолинейном формате, гораздо проще просто использовать as.Date и указать соответствующий аргумент format:

df$Date <- as.Date(df$Datum, format="%d.%m.%Y")
df

  ID      Datum       Date
1  a 01.01.1990 1990-01-01
2  b       <NA>       <NA>
3  c 11.01.1990 1990-01-11
4  d       <NA>       <NA>
5  e 01.02.1990 1990-02-01

Чтобы просмотретьсписок кодов форматирования, используемых as.Date, см. ?strptime

...