У меня есть данные с 6 переменными: EmployeeID, JobID, Name, JobLocation, Date и HoursWorked.Я хочу сгруппировать свои данные по EmployeeID и JobID (то есть найти все записи с одинаковыми EmployeeID и JobID в одной строке), а затем найти минимальную и максимальную дату по группам и сумму всех HoursWorked между этими датами.Я хочу, чтобы мои данные заканчивались столбцами: EmployeeID, JobID, Name JobLocation, MinDate, MaxDate, TotalHoursWorked.
Я пробовал это до сих пор, но MinDate, MaxDate и TotalHoursWorked показывают одну и ту же дату для каждой записи.
Data$EmployeeID<- as.factor(Data$EmployeeID)
Data$JobID<- as.factor(Data$JobID)
Data$Date<- as.factor(Data$Date)
Data$Date<- as.Date(Data$Date,format="%m/%d/%Y")
Data$HoursWorked<-as.numeric(Data$HoursWorked)
Data<-Data[c("EmployeeID", "Name","JobID", "JobLocation", "Date", "HoursWorked")]
Data<- Data%>%
group_by(Data$EmployeeID,Data$JobID, Data$Name,Data$JobLocation) %>%
summarize(TotalHoursWorked = sum(Data$HoursWorked)) %>%
mutate(MaxDate=max(Data$Date), MinDate=min(Data$Date))
Вывод выборки (данных) без столбца «Имя»:
> sample(Data)
# A tibble: 1,000 x 5
EmployeeID HoursWorked JobID Date JobLocation
<fct> <dbl> <fct> <date> <chr>
1 32589 4 B3031-002513-00 2016-03-14 #
2 32590 8 B3031-002562-00 2016-04-08 #
3 32591 9 B3031-002564-00 2016-04-05 #
4 32591 2.5 B3031-002564-00 2016-04-06 #
5 32591 3 B3031-002562-00 2016-04-07 #
6 32591 7.5 B3031-002562-00 2016-04-08 #
7 32605 0 B3031-002348-00 2016-01-04 #
8 32605 3 B3031-002419-00 2016-01-04 #
9 32605 0 B3031-002348-00 2016-01-05 #
10 32605 3 B3031-002419-00 2016-01-05 #
# ... with 990 more rows
И вывод после запуска кода group_by:
> sample(Data)
# A tibble: 80 x 6
MaxDate `Data$JobID` MinDate `Data$\`Job Location\`` TotalHoursWorked `Data$EmployeeID`
<date> <fct> <date> <chr> <dbl> <fct>
1 2016-07-29 B3031-002513-00 2016-01-04 # 3288. 32589
2 2016-07-29 B3031-002562-00 2016-01-04 # 3288. 32590
3 2016-07-29 B3031-002562-00 2016-01-04 # 3288. 32591
4 2016-07-29 B3031-002564-00 2016-01-04 # 3288. 32591
5 2016-07-29 B3031-002348-00 2016-01-04 # 3288. 32605
6 2016-07-29 B3031-002419-00 2016-01-04 # 3288. 32605
7 2016-07-29 B3031-002445-00 2016-01-04 # 3288. 32605
8 2016-07-29 B3031-002502-00 2016-01-04 # 3288. 32605
9 2016-07-29 B3031-002504-00 2016-01-04 # 3288. 32605
10 2016-07-29 B3031-002505-00 2016-01-04 # 3288. 32605
# ... with 70 more rows