Цель
У меня есть набор данных, df, который имеет миллионы значений Duration (в секундах), связанных с уникальными идентификаторами пользователя. Я sh найду способ предсказать общее время, необходимое для составления сообщения, учитывая данные, которые у меня есть в настоящее время. Это вообще возможно?
UserID Date Duration (s)
A 1/1/2020 1:10:00PM 300
B 1/1/2020 2:00:00PM 800
C 1/1/2020 3:00:00PM 150
D 1/1/2020 4:00:00PM 100
Желаемый выход:
static time that it takes to compose a given message: 300 seconds
(hypothetically speaking once I find this appropriate model)
dput:
structure(list(UserID = structure(1:4, .Label = c("A", "B", "C",
"D"), class = "factor"), Date = structure(1:4, .Label = c("1/1/2020 1:20:00 PM",
"1/1/2020 2:00:00 PM", "1/1/2020 3:00:00 PM", "1/1/2020 4:00:00 PM"
), class = "factor"), Duration = c(300L, 800L, 150L, 100L)), class = "data.frame", row.names = c(NA,
-4L))
Что я думаю:
Я думаю, что могу использовать либо Logisti c Регрессия, либо ближайших соседей, либо дерево решений в пределах Python (или некоторый алгоритм обучения с контролируемым типом), но я Я не уверен на 100%. Любые идеи о том, как подойти к этому, были бы великолепны!