r объединить два кадра данных, не совпадая, и с отметками времени - PullRequest
0 голосов
/ 11 мая 2018

Я новичок в R и пытаюсь изменить какой-то код с SAS на R, но я застрял на одной части. В настоящее время я не могу вспомнить пример набора данных, который я могу опубликовать, который бы представлял мою проблему.

Датафрейм name1 имеет 5 столбцов и 483 строки.

Dataframe name2 имеет 27 столбцов и более 30000 строк.

В настоящее время у меня есть это в SAS:

 proc sql;
 create table name_c as
 select a.*, b.*
 from work.name1 a inner join work.name2 b
 on a.name = b.name
 where b.start_time <= a.p_start_time:
 quit;

Я пытался использовать sqldf

   name_c <- sqldf("select a.*, b.* from name1 a inner join name2 b on
                    a.name = b.name
                    where b.start_time <= a.p_start_time")

но получите сообщение об ошибке: Ошибка в rsqlite_send_query (conn @ ptr, оператор): Таблица name2 не имеет именованного столбца Дополнительно: предупреждающее сообщение: В field_types [] <- field_types [имена (данные)]: количество заменяемых элементов не кратно длине замены </strong>

Результатами, на которые я надеюсь, будут все столбцы, но отфильтрованные по метке времени, как указано в коде sqldf.

1 Ответ

0 голосов
/ 11 мая 2018

Я не согласен с SAS, но (насколько я понимаю) вы сможете использовать dplyr для создания inner_join, а затем фильтровать. Ниже приведен пример с игрушкой:

 library(dplyr)

 Name <- c(1,1,1,1,2,2,2,2,3,3,3,3)
 Year <- c(2006,2007,2008,2009,2006,2007,2008,2009,2006,2007,2008,2009)
 Qtr.1 <- as.numeric(c(15,12,22,10,12,16,13,23,11,13,17,14))
 Qtr.2 <- as.numeric(c(14,32,62,40,72,26,43,53,14,53,67,17))
 Qtr.3 <- as.numeric(c(55,52,52,50,52,56,53,53,51,15,15,54))
 Qtr.4 <- as.numeric(c(65,72,52,40,52,66,63,24,51,63,57,84))
 DF <- data.frame(Name,Year,Qtr.1,Qtr.2,Qtr.3,Qtr.4)


 Name2 <- c(1,1,1,1,2,2,5,2,9,3,7,3)
 Year2 <- c(2016,2034,2008,2009,2034,2007,2008,2009,2006,2007,2008,2009)
 Qtr.1.2 <- as.numeric(c(15,12,22,10,12,16,13,23,11,13,17,14))
 Qtr.2.2 <- as.numeric(c(14,32,62,40,72,26,43,53,14,53,67,17))
 Qtr.3.2 <- as.numeric(c(55,52,52,50,52,56,53,53,51,15,15,54))
 Qtr.4.2 <- as.numeric(c(65,72,52,40,52,66,63,34,51,63,57,84))
 DF2 <- data.frame(Name2,Year2,Qtr.1.2,Qtr.2.2,Qtr.3.2,Qtr.4.2)


 #using dplyr's inner_join + filter fuctions
 x <- inner_join(DF, DF2 , by = c("Name" = "Name2"))
 x <- x %>% filter(Year <= Year2)
 x
    # A tibble: 31 x 11
   Name  Year Qtr.1 Qtr.2 Qtr.3 Qtr.4 Year2
1     1  2006    15    14    55    65  2016
.....
...