Зачем искать Elbow (или использовать L-метод) с CH и SIL для выбора числа кластеров? - PullRequest
0 голосов
/ 18 октября 2018

В этой статье автор использует методы CH (индекс Калинского – Харабаса) и SIL (индекс силуэта) для определения количества кластеров.Однако вместо того, чтобы выбирать самые высокие значения, он применяет L-метод к этим индексам, выбирая его коленные (локтевые) точки.enter image description here

В этой ссылке есть много подвопросов, в которых один из них объясняет, почему авторы используют максимальную «стабильность» СН для определения количествакластеры.Однако для этого подвопроса не было ответа, который бы объяснил это решение.

Максимальная «стабильность» в этом вопросе связана с L-методом, поскольку они выбирают точки, где изменения начинают быть наименьшими.

В чем может быть причина для использования L-метода (или максимальной стабильности) с индексами CH и SIL, которые, как правило, нужны мне максимально?(Я бы понял, если бы они использовали, например, сумму квадратов в пределах)

1 Ответ

0 голосов
/ 19 октября 2018

Общая проблема с кластерным анализом состоит в том, что люди заранее настроены на то, что должна быть хорошей кластеризацией, и что должно быть достижимым с их предварительной обработкой, методом ипараметры. Сбой кластеризации явно не был вариантом - но это должно было быть .В частности, если вы (должны) выполнять большую часть предварительной обработки, это может легко привести к сбою.Примените PCA к достаточно сложным данным, и все, что вы получите, - это одиночный гауссовоподобный шарик.Самая большая ошибка в статистике заключается в том, что вы не проверяете, могут ли все ваши гипотезы ошибаться ...

Вы можете найти успешные графики CH и Silhouette, например, здесь:

https://mathworks.com/help/stats/clustering.evaluation.calinskiharabaszevaluation-class.html

https://mathworks.com/help/stats/clustering.evaluation.silhouetteevaluation-class.html

График указывает на то, что, по данным Iris с очень хорошим поведением, 3 кластера, вероятно, являются лучшим выбором.Вот как должен выглядеть график силуэта CH соответственно , если , то вы хотите использовать его для спора о количестве кластеров.Если на графике такой пик не показан, вы, вероятно, не сможете его использовать - или все ваши кластеры плохие ...

Следует также отметить, что эти меры являются просто эвристикой.Чем лучше CH или Силуэт не гарантирует лучший результат для всех целей.

...