Я новичок в изучении Python и анализа данных.
После предварительной обработки данных мои данные выглядят следующим образом:
userID Event count
000106a5-98bf-4f9d-a564-4210ab884c31 view 1
0003ee5d-a6c2-4d36-8adb-7c9b3c4dd696 search 13
0003ee5d-a6c2-4d36-8adb-7c9b3c4dd696 view 5
0003ee5d-a6c2-4d36-8adb-7c9b3c4dd696 wait 3
.........
Если я хочу, чтобы моя модель показывала вероятность того, какое событие и шанс будет делать пользователь в будущем,Должен ли я перенести мой Dataframe в словарь?
Я рассчитываю, что каждый пользователь, например, 0003ee5d-a6c2-4d36-8adb-7c9b3c4dd696, имеет 13/21 шанс выполнить поисковое событие на следующий день. Итак, моя конечная модель должна выглядеть следующим образом.
mytable [userID] = событие с наибольшей вероятностью и шанс этого пользователя сработает на следующий день.
Извините, я просто застрял здесь длядолгое время .. Я пытался использовать метод .to_dict для передачи этих данных в dict, но я не знаю, как мне передать их в {'userID': ['Event Name', 'Chance'], 'userID': [....]}
Может кто-нибудь дать мне несколько подсказок или указаний?
Большое спасибо.
---- больше данных
event, userid, utc_timestamp
view,4c02df98-fee3-43dd-8582-4192180a52c8,2019-01-17 03:49:36.838
search,bcc02079-d9d6-461a-bb7a-6ad679dc3ddb,2019-01-19 22:33:14.049
search,4443b108-11aa-44e8-9934-a9c75e7a5b2e,2019-01-20 06:54:42.97
search,a8513b28-c94b-49b4-9260-07f9ce8a24aa,2019-01-17 23:33:44.099
search,261eb70e-af13-4d0c-a2d8-7c2095586b2d,2019-01-20 01:28:01.169
search,7d670d0a-f815-4ce1-955a-f026f478ebb5,2019-01-17 22:42:44.218
search,f8404271-0e1e-448f-9736-32ad9085746c,2019-01-14 04:02:17.32
search,07744e04-9889-41b6-9cee-62c8350f2ef4,2019-01-16 20:47:47.861
search,3038c5f1-ea7f-4b5d-8243-325f1859a75c,2019-01-20 03:22:12.871
search,7e0c3920-ccc6-401c-88ac-054221b1187d,2019-01-15 13:41:56.057
search,9d1e72a7-3aee-47a2-9282-f479e83c27b9,2019-01-19 07:45:28.65
search,38c0fcdd-90ce-4265-a67a-a71248d5d4e6,2019-01-17 07:58:27.257
search,5dfe62f0-2fba-4194-84d6-56a9fff51c9d,2019-01-15 03:56:05.602
view,90207014-b828-46b7-b740-19c2735524d8,2019-01-19 11:56:55.772
search,6b28d9fb-3334-4f83-9ac0-a0bb7f18089d,2019-01-20 16:12:19.213
search,aad4085c-7c17-4623-93f7-9245f02ccd98,2019-01-17 05:11:41.377
search,ea25f42a-7ddc-4411-8500-66c63d0b33cb,2019-01-18 10:33:46.563
search,c9d8ca1d-8814-49f3-a32a-5eaa9059b8ea,2019-01-19 07:08:56.656
search,ad55726f-3808-4267-9476-49cd888d92cd,2019-01-18 13:05:41.182
df = pd.DataFrame({'Event': data.event,'userID':data.userid, 'utc_timestamp': data.utc_timestamp})
df.groupby( [ "userID", "Event"] ).size().to_frame(name = 'count').reset_index()