Разница между мини-партиями K-Means и последовательными / онлайн-KMeans - PullRequest
0 голосов
/ 06 ноября 2019

Я пробую примеры K-Means и его вариантов, используя библиотеку scikit-learn sklearn.cluster. В чем разница между кластеризацией мини-пакетов K-Means и интерактивной / последовательной кластеризацией K-Means?

Я не смог найти реализацию онлайн-KMeans в библиотеке scikit. Если размер партии равен 1, мини-партия K-Means будет действовать как K-Means онлайн?

1 Ответ

0 голосов
/ 06 ноября 2019

Мини-пакет k-средних не сходится к локальному оптимуму. X

По сути, он использует подвыборку данных для повторного выполнения одного шага k-средних. Но поскольку эти образцы могут иметь разные оптимумы, он не найдет наилучшего, а переместится между решениями к разным частям. Вы останавливаетесь после фиксированного числа итераций, иначе он будет работать вечно. Если у вас есть хорошие данные, это может не иметь большого значения. если у вас сложный набор данных и не так много данных, быстрый (не Ллойд) KMeans найдет лучшее решение, а также займет всего несколько итераций. Я сомневаюсь, что у многих людей есть такие большие наборы данных, где минибат является хорошей идеей.

...