K-Mode кластеризация - PullRequest
       34

K-Mode кластеризация

0 голосов
/ 01 декабря 2018

У меня есть набор данных из 6 миллионов строк со смешанным типом данных.Прототип k не масштабируется, и поэтому я преобразовал все столбцы в категориальные и запустил K-режим для 4 кластеров на случайной выборке из 4 M строк.Однако в k-режиме есть проблема инициализации, которая будет давать разные кластеры при каждом запуске модели.Допустим, я запускаю его один раз и беру вывод для анализа.Является ли подход совершенно неверным для одноразового анализа?Если да, есть ли способ исправить проблему инициализации?Может быть, установив параметр или что-то.Любое предложение высоко ценится.

1 Ответ

0 голосов
/ 01 декабря 2018

Я уверен, что вы сделали это, но определенно посадили семя.Потому что, как только вы установите переменную режима, он выбирает случайный набор строк из ваших данных и продолжает алгоритм.Таким образом, видение семени важно для воспроизводимых результатов.Я предполагаю, что ваш код выглядит примерно так:

kmodes(data, modes=4, iter.max = 10, weighted = FALSE, fast = TRUE)

Я надеюсь, что в зависимости от другого кластера количество кластеров также не меняется.

...