Какой алгоритм и какая комбинация гиперпараметров будут наилучшими для кластеризации этих данных? - PullRequest
6 голосов
/ 31 мая 2019

Я изучал алгоритмы нелинейной кластеризации и наткнулся на этот двумерный график. Мне было интересно, какая кластеризация алогирта и комбинация гиперпараметров хорошо сгруппируют эти данные.

Plot

Точно так же, как человек сгруппирует эти 5 шипов. Я хочу, чтобы мой алгоритм сделал это. Я пробовал KMeans, но это было только кластеризация горизонтально или вертикально. Я начал использовать GMM, но не смог получить гиперпараметры для нужной кластеризации.

Ответы [ 3 ]

3 голосов
/ 31 мая 2019

Если это не работает, всегда сначала пытайтесь улучшить предварительную обработку. Алгоритмы, такие как k-means, очень чувствительны к масштабированию, так что это то, что нужно тщательно выбирать.

GMM, безусловно, ваш первый выбор здесь. Возможно, стоит попробовать разные инструменты. R's Mclust очень медленный. GMM Склеарна иногда нестабилен. С ELKI немного сложнее начать, но его EM обычно давал мне лучшие результаты.

Помимо GMM, вероятно, стоит попробовать корреляционную кластеризацию . Эти алгоритмы предполагают наличие некоторого многообразия (например, линии), на котором существует кластер. Примеры включают ORCLUS, LMCLUS, CASH, 4C, ... Но, на мой взгляд, это в основном работает для синтетических данных игрушек.

1 голос
/ 31 мая 2019

DBSCAN или GMM должны хорошо работать для кластеризации данных этого типа.

Это один из немногих алгоритмов кластеризации, который не классифицирует данные на circular clusters

Кластеризация с помощью DBSCAN

DBSCAN

Кластеризация с GMM

GMM

Также, пожалуйста, дайте этот блог чтение.Это объяснит различные методы кластеризации.

1 голос
/ 31 мая 2019

Я предлагаю попробовать иерархическая кластеризация . В агломерационном подходе вы будете назначать отдельные кластеры для каждой точки, а затем комбинировать кластеры на основе их расстояний друг от друга.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...