Какой алгоритм кластеризации является лучшим для кластеризации многомерных данных с низкой разницей в плотности? - PullRequest
1 голос
/ 31 марта 2020

Я сейчас работаю над проектом и собираюсь sh для кластеризации многомерных данных. Я попробовал кластеризацию K-Means и DBSCAN, оба были совершенно разными алгоритмами.

Модель K-Means вернула довольно хороший результат, она вернула 5 кластеров, но я читал, что когда размерность велика, евклидово расстояние не работает, поэтому я не знаю, может доверять этой модели.

При испытании модели DBSCAN модель генерировала много точек шума и сгруппировала много точек в одном кластере. Я попробовал метод dist plot KNN, чтобы найти оптимальный eps для модели, но я не могу заставить модель работать. Это привело к моему заключению, что, возможно, плотность нанесенных точек очень высока, и, возможно, именно поэтому я получаю много точек в одном кластере.

Для кластеризации я использую 10 различных столбцов данных , Должен ли я изменить алгоритм, который я использую? Какой будет лучший алгоритм для многомерных данных и с менее изменяющейся плотностью?

Ответы [ 2 ]

1 голос
/ 31 марта 2020

Сначала вы можете уменьшить размер вашего набора данных с помощью PCA / LDA / t-sne или автоэнкодеров. Затем запустите стандартные алгоритмы кластеризации.

Другой способ - использовать причудливые методы глубокой кластеризации. Это сообщение в блоге действительно хорошее объяснение того, как они применяют глубокую кластеризацию в наборе данных большого размера.

0 голосов
/ 31 марта 2020

Может быть, это вдохновляет вас: Алгоритмы кластеризации Scikit-learn Я предлагаю вам попробовать несколько вариантов. Надеюсь, это поможет!

...