Можно ли использовать sklearn.dbscan или sklearn.kmeans для более чем двух измерений? - PullRequest
0 голосов
/ 03 апреля 2019

В моем недавнем проекте кто-то пытался кластеризовать многомерный набор данных с помощью sklearn.dbscan.Но я очень сомневаюсь в этом подходе.

Как мы можем узнать eps и min_samples?Я имею в виду, что вы не можете наблюдать за размером кластера, потому что набор данных находится в многомерном пространстве.

, как я вижу, подходы уже есть на вики-странице: https://en.wikipedia.org/wiki/Clustering_high-dimensional_data

Эти подходы - то, что я ищу, верно?

Я не уверен, правильно ли я понял эту проблему.Спасибо за предложения!

Ответы [ 2 ]

2 голосов
/ 03 апреля 2019

Это зависит от того, сколько измерений мы говорим. Я бы сказал, что если это меньше, чем ~ 10, вы можете попробовать напрямую использовать DBSCAN. В противном случае какое-то уменьшение размерности, вероятно, даст вам лучшие результаты.

В любом случае конкретный подход будет зависеть от конкретной проблемы.

1 голос
/ 03 апреля 2019

Нет смысла использовать это только для двумерных данных.

Оба работают очень хорошо для трехмерных данных.

Я бы сказал, что размеры до 50обычно просто отлично.Впоследствии это в конечном итоге становится сложным, в зависимости от ваших данных.Например, цветные гистограммы с сотнями измерений могут работать нормально.Так что текст может быть, потому что его внутренняя размерность обычно намного меньше, но я не думаю, что DBSCAN - хороший выбор для текста.Сферическое k-средних даже является стандартной техникой кластеризации текста с «формально» 50000+ размерами ...

Низкая размерность важна для подходов на основе сетки .Но ни DBSCAN, ни k-means не основаны на сетке.Я бы предпочел не использовать DenClue.

...