Выбор количества кластеров в k означает - PullRequest
2 голосов
/ 20 ноября 2010

Я хочу кластеризовать большую выборку данных, и для этого я использую функцию k средних в MATLAB. Проблема в том, что он возвращает матрицу со всеми данными, отсортированными по количеству кластеров, которые я указал.

Как узнать, какое количество кластеров является оптимальным.

Я думал, что если бы я получил равное количество элементов в каждом кластере, это было бы оптимальным, но этого никогда не произойдет. Скорее он может продолжать кластеризацию данных для любого числа, которое я поставил.

Пожалуйста, помогите ...

1 Ответ

0 голосов
/ 12 декабря 2010

Я прочитал, и я думаю, что ответом на это может быть: - В kmeans мы пытаемся разделить данные в соответствии со средствами, так как данные поступают так теоретически, наш лучший набор данных будет там, где каждый раздел имеет равное количество данных.

Я использовал kmeans ++, который был лучшим алгоритмом, чем kmeans, потому что он не инициализировал случайное значение, а затем итерировал по числу секций до тех пор, пока размеры секций не были почти равны.Это была приблизительная цифра, как, скажем, для 3, я получил 2180,729,1219, а для 4 я получил 30,2422, 1556,120, поэтому я выбрал 3 в качестве окончательного ответа ............

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...