Подмножество данных для указанного месяца и года - PullRequest
7 голосов
/ 23 февраля 2012

У меня есть кадр данных, в котором первый столбец - это дата в формате д / м / г, а второй - числовое значение (продажи).

Я хочу создать подмножества для каждого месяца одного года (например, 11/11, 12/11 и т. д.).Я попробовал код, предложенный в этом ответе: подмножество data.frame с несколькими условиями

, и оно работает при наложении условия на месяц:

subset(sales, format.Date(date, "%m")=="11")

но он возвращает пустое подмножество с сообщением об ошибке invalid 'x' argument, когда я добавляю условие года:

subset(sales, format.Date(date, "%m")=="11" & format.Date(date, "%y")=="11")

Я использую R 2.10.1-2 в Ubuntu 10.04, спасибо за помощь, которую вы можете оказать.

Ответы [ 3 ]

5 голосов
/ 23 февраля 2012

Поскольку вы не предоставили набор данных, я сделал свой собственный по предоставленной вами ссылке.Ваш метод работает для меня, и я получаю пустой набор данных, только если я не отвечаю обоим поставленным условиям (месяц и год), поэтому я предполагаю, что вы пытаетесь установить подмножество дат (месяц и год) который не существует (но не может сказать наверняка без используемого вами кода).Вот код, который я использовал:

sales <- read.table(text="2372  Kansas KS2000111 HUMBOLDT, CITY OF    ATRAZINE    1.3 05/07/2006
9104  Kansas KS2000111 HUMBOLDT, CITY OF    ATRAZINE   0.34 07/23/2006
9212  Kansas KS2000111 HUMBOLDT, CITY OF    ATRAZINE   0.33 02/11/2007
2094  Kansas KS2000111 HUMBOLDT, CITY OF    ATRAZINE    1.4 05/06/2007
16763 Kansas KS2000111 HUMBOLDT, CITY OF    ATRAZINE   0.61 05/11/2009
1076  Kansas KS2000111 HUMBOLDT, CITY OF METOLACHLOR   0.48 05/12/2002
1077  Kansas KS2000111 HUMBOLDT, CITY OF METOLACHLOR    0.3 05/07/2006")

sales$V9 <- as.Date(sales$V9, "%m/%d/%Y")
names(sales)[9] <- 'date'
subset(sales, format.Date(date, "%m")=="05" & format.Date(date, "%y")=="07")
#    V1     V2        V3        V4   V5 V6       V7  V8       date
#4 2094 Kansas KS2000111 HUMBOLDT, CITY OF ATRAZINE 1.4 2007-05-06

subset(sales, format.Date(date, "%m")=="05" & format.Date(date, "%y")=="10")
#[1] V1   V2   V3   V4   V5   V6   V7   V8   date
#<0 rows> (or 0-length row.names)
2 голосов
/ 18 июля 2015

Этот ответ избегает subset, обрабатывает пропущенные наблюдения и использует as.POSIXct формат даты / времени. Хотя остальная часть кода практически такая же, как в ответе Тайлера Ринкера. Обратите внимание, что я должен указать имя переменной даты / времени внутри as.POSIXct, а не использовать имя неформатированной переменной Date_Time.

my.data <- read.csv(text = '
          Date_Time,      state,  city
    10/05/2011 07:32:40,    AK,     aa
    15/06/2011 13:26:02,    AK,     bb
    19/07/2011 13:26:02,    OH,     cc
                     NA,    OH,     dd
    20/05/2012 14:57:27,    PA,     ee
    22/07/2012 14:57:27,    AL,     ff
    20/03/2013 15:03:18,    NY,     gg
', header=TRUE, stringsAsFactors = FALSE, na.strings = 'NA', strip.white = TRUE)

my.data$my_Date_Time <- as.POSIXct(my.data$Date_Time, format = "%d/%m/%Y %H:%M:%S")

# Select May
my.data[format.Date(my.data$my_Date_Time, "%m")=="05" &
        !is.na(my.data$my_Date_Time),]

#             Date_Time state city        my_Date_Time
# 1 10/05/2011 07:32:40    AK   aa 2011-05-10 07:32:40
# 5 20/05/2012 14:57:27    PA   ee 2012-05-20 14:57:27


# Select 2012
my.data[format.Date(my.data$my_Date_Time, "%Y")=="2012" &
        !is.na(my.data$my_Date_Time),]

#             Date_Time state city        my_Date_Time
# 5 20/05/2012 14:57:27    PA   ee 2012-05-20 14:57:27
# 6 22/07/2012 14:57:27    AL   ff 2012-07-22 14:57:27

# Select May 2012
my.data[format.Date(my.data$my_Date_Time, "%m")=="05"   &
        format.Date(my.data$my_Date_Time, "%Y")=="2012" &
        !is.na(my.data$my_Date_Time),]

#             Date_Time state city        my_Date_Time
# 5 20/05/2012 14:57:27    PA   ee 2012-05-20 14:57:27
1 голос
/ 19 сентября 2016

«Y» учитывает регистр в датах.Я не знаю почему, но «m» для месяцев и «d» для дней строчные, но «Y» должно быть прописными.Это должно работать для вас:

subset(sales, format.Date(date, "%m")=="11" & format.Date(date, "%Y")=="11")
...