У меня есть таблица оценок пользователей, подобная этой:
user_id score duration_of_per_play start_date
1 56 313 2018-01-09
2 14 560 2018-08-01
1 56 113 2018-01-09
4 14 340 2018-08-01
....
Теперь я хочу использовать k-means
алгоритм для кластеризации пользователей.просто я знаю, что у меня нет Missing Values
и outliers
.
, но я не знаю:
- каков следующий шаг?
- мне нужно
centering
данные?
У меня 42 000 записей об этой игре.Я хочу кластеризовать пользователей в зависимости от score
s и duration_of_per_play
.