Стратегии отбора семян для K-средних - PullRequest
2 голосов
/ 09 октября 2011

Интересно, какие методы отбора семян я могу применить к алгоритму K-средних? Поиск в Google не был таким полезным. Есть предложения?

Ответы [ 2 ]

2 голосов
/ 09 октября 2011

Семена зависят от домена.Например, если ваши элементы данных являются словами, ваши семена должны быть наиболее частыми словами.В противном случае, вы можете кластеризовать небольшую выборку и использовать ее в качестве начального числа.

Вот пример более сложного алгоритма:

Алгоритм выбора семенного прохода за один проход для k-среднихК. Karteeka Паван, Аллам Аппа Рао, А. В. Даттатрея Рао и Г. Р. Шридхар.Журнал информатики 6 (1): 60-66, 2010. pdf

1 голос
/ 09 октября 2011

Google для «контролируемого» k означает кластеризацию & k ++ означает .... также укажите ваши требования к производительности (каков ваш k? Сколько точек ввода?)

В общем, несколько тысяч точек могут быть легко сгруппированы с помощью простого алгоритма реализации k ... Так что сначала я попробую.

Кроме того, если вы не уверены, каким должен быть K, сначала попробуйте кластеризацию MCL, чтобы получить правильную оценку.

...