Как предварительно обработать данные игры - k-means - PullRequest
0 голосов
/ 29 ноября 2018

У меня есть таблица оценок пользователей, подобная этой:

user_id  score duration_of_per_play  start_date
  1        56    313                 2018-01-09
  2        14    560                 2018-08-01
  1        56    113                 2018-01-09
  4        14    340                 2018-08-01
....

Теперь я хочу использовать k-means алгоритм для кластеризации пользователей.просто я знаю, что у меня нет Missing Values и outliers.

, но я не знаю:

  1. каков следующий шаг?
  2. мне нужно centering данные?

У меня 42 000 записей об этой игре.Я хочу кластеризовать пользователей в зависимости от score s и duration_of_per_play.

1 Ответ

0 голосов
/ 29 ноября 2018

K-means не требует предварительного центрирования как такового, но вы получите выгоды от нормализации данных из-за разного масштаба используемых вами функций.
Поэтому я рекомендую вычестьсреднее значение и деление на STD (конечно, на ось), а затем просто с использованием одной из многих реализаций k-средних.
Я бы также прочитал о k-средних и различных вариантах выбора количества кластеров, связанных свыбросы и т.д., но это не «следующий шаг», как вы просили.
Удачи!


Это хорошая реализация, с которой вы можете начать: https://scikit -learn.org / stable / modules / generate / sklearn.cluster.KMeans.html

...