Неожиданное поведение "rbind.fill" - PullRequest
1 голос
/ 23 мая 2011

Я не совсем понимаю, как работает функция Хедли "rbind.fill". У меня есть список фреймов данных, над которыми я хотел бы выполнить простую операцию rbind, но функция rbind.fill дает мне результаты, которые я не могу объяснить. Обратите внимание, что функция "rbind" дает ожидаемый результат. Вот минимальный пример:

library(reshape)      
data1 <- structure(list(DATE = structure(c(1277859600, 1277856000), class = c("POSIXct", 
                   "POSIXt"), tzone = "GMT"), BACK = c(0, -1)), .Names = c("DATE", 
                    "BACK"), row.names = 1:2, class = "data.frame")
data2 <- structure(list(DATE = structure(c(1277856000, 1277852400), class = c("POSIXct", 
                   "POSIXt"), tzone = "GMT"), BACK = c(0, -1)), .Names = c("DATE", 
                    "BACK"), row.names = 1:2, class = "data.frame")
bind1 <- rbind.fill(list(data1, data2))
bind2 <- rbind(data1, data2)
data1
data2
bind1
bind2
                 DATE BACK
1 2010-06-30 01:00:00    0
2 2010-06-30 00:00:00   -1
                 DATE BACK
1 2010-06-30 00:00:00    0
2 2010-06-29 23:00:00   -1
                 DATE BACK
1 2010-06-29 18:00:00    0
2 2010-06-29 17:00:00   -1
3 2010-06-29 17:00:00    0
4 2010-06-29 16:00:00   -1
                 DATE BACK
1 2010-06-30 01:00:00    0
2 2010-06-30 00:00:00   -1
3 2010-06-30 00:00:00    0
4 2010-06-29 23:00:00   -1

Итак, как вы можете видеть, bind1, который содержит вывод rbind.fill, создает новые времена в столбце DATE, которых не было даже в исходном наборе данных. Это ожидаемое поведение? Я знаю, что я могу просто использовать
bind <- do.call(rbind, list(data1, data2))
связать более 5000 фреймов данных, которые у меня есть, но может ли кто-нибудь поговорить с вышеупомянутым поведением?
Спасибо.

Edit:
Как указал @DWin ниже, это было связано не с самой функцией rbind.fill, а с тем фактом, что в выходных данных время печаталось по тихоокеанскому времени, но в формате GMT.

SessionInfo()
R version 2.12.1 (2010-12-16)
Platform: x86_64-pc-mingw32/x64 (64-bit)

locale:
[1] LC_COLLATE=English_United States.1252  LC_CTYPE=English_United States.1252   
[3] LC_MONETARY=English_United States.1252 LC_NUMERIC=C                          
[5] LC_TIME=English_United States.1252    

attached base packages:
[1] tcltk     grid      stats     graphics  grDevices utils     datasets  methods  
[9] base     

other attached packages:
[1] tcltk2_1.1-5  reshape_0.8.4 plyr_1.4      proto_0.3-9.1

loaded via a namespace (and not attached):
[1] ggplot2_0.8.9 tools_2.12.1 

1 Ответ

2 голосов
/ 23 мая 2011

Скорее всего, вы видите поведение print.POSIXct, взаимодействующее с настройками часового пояса на вашем компьютере. Я получаю одинаковый вывод для двух вызовов функций.

> rbind.fill(list(data1,data2)) == rbind(data1,data2)
  DATE BACK
1 TRUE TRUE
2 TRUE TRUE
3 TRUE TRUE
4 TRUE TRUE
> identical( rbind.fill(list(data1,data2)) ,  rbind(data1,data2) )
[1] TRUE

Я вполне уверен, что время POSIXct по умолчанию указано в GMT. Обратите внимание, что as.POSIXt имеет аргумент tz:

tz   A timezone specification to be used for the conversion, if one is required. 
     System-specific (see time zones), but "" is the current timezone, and "GMT" is 
     UTC (Universal Time, Coordinated).

Если вы введете ?locales, вы увидите функции для получения и установки региональных настроек, хотя они различаются в разных ОС, поэтому мой опыт работы на Mac может не совпадать с вашим в другой ОС. Я пытаюсь использовать класс Date, а не классы POSIX, но это только потому, что у меня нет особой необходимости в дополнительной детализации на уровне времени. В пакетах chron и lubridate есть дополнительные функции, которые вы, возможно, захотите изучить.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...