Модель, которая будет предсказывать, сколько времени потребуется для составления сообщения (используя Python) - PullRequest
1 голос
/ 15 марта 2020

Цель

У меня есть набор данных, df, который имеет миллионы значений Duration (в секундах), связанных с уникальными идентификаторами пользователя. Я sh найду способ предсказать общее время, необходимое для составления сообщения, учитывая данные, которые у меня есть в настоящее время. Это вообще возможно?

  UserID     Date                                     Duration (s)
  A          1/1/2020 1:10:00PM                       300
  B          1/1/2020 2:00:00PM                       800
  C          1/1/2020 3:00:00PM                       150
  D          1/1/2020 4:00:00PM                       100

Желаемый выход:

 static time that it takes to compose a given message:   300 seconds
 (hypothetically speaking once I find this appropriate model)

dput:

 structure(list(UserID = structure(1:4, .Label = c("A", "B", "C", 
 "D"), class = "factor"), Date = structure(1:4, .Label = c("1/1/2020 1:20:00 PM", 
 "1/1/2020 2:00:00 PM", "1/1/2020 3:00:00 PM", "1/1/2020 4:00:00 PM"
 ), class = "factor"), Duration = c(300L, 800L, 150L, 100L)), class = "data.frame", row.names =      c(NA, 
-4L))

Что я думаю:

Я думаю, что могу использовать либо Logisti c Регрессия, либо ближайших соседей, либо дерево решений в пределах Python (или некоторый алгоритм обучения с контролируемым типом), но я Я не уверен на 100%. Любые идеи о том, как подойти к этому, были бы великолепны!

...