K-средства для набора данных, в котором первый столбец - имя пользователя (строка), а второй столбец - идентификатор (целое число) для кластеризации идентификатора. - PullRequest
0 голосов
/ 11 июня 2018

Я хочу применить K-Means к набору данных, в котором первый столбец - это имя пользователя (строка), а второй столбец - это некоторый идентификатор (целое число), рассматривающий возможность кластеризации идентификатора в том же кластере.

Пример данных

Имя пользователя Связанный идентификатор

  1. rajan.kumar 2134
  2. rajan.kumar 2134
  3. rajan.kumar 2194
  4. mano.singh 5196
  5. mano.singh 2134
  6. mano.singh 2194

Можем ли мы применить K-средства в Python для группировки вышеуказанного набора данныхрассматривая группу как идентификатор, потому что я искал много статей не имеют решения на основе строки.

1 Ответ

0 голосов
/ 12 июня 2018

Это не проблема кластеризации.

Вы, похоже, ищете SQL GROUP_BY.

...