Не ваш вопрос, но простое ускорение любого метода kmeans для большого N:
1) сначала сделайте k-средства на случайной выборке, скажем, sqrt (N) из точек
2) затем запустите полный k-средних из этих центров.
Я нашел это в 5-10 раз быстрее, чем kmeans ++ для N 10000, k 20, с похожими результатами.
Насколько хорошо это работает для вас, будет зависеть от того, насколько хорошо пример sqrt (N)
аппроксимирует целое, а также на N, dim, k, ninit, delta ...
Какие у вас N (количество точек данных), dim (количество функций) и k?
Огромный диапазон пользовательских N, dim, k, шума данных, метрик ...
не говоря уже об отсутствии общедоступных тестов, затрудняется сравнение методов.
Добавлено: код Python для kmeans () и kmeanssample ()
здесь на SO; комментарии приветствуются.