Question

В этой статье автор использует методы CH (индекс Калинского – Харабаса) и SIL (индекс силуэта) для определения количества кластеров.Однако вместо того, чтобы выбирать самые высокие значения, он применяет L-метод к этим индексам, выбирая его коленные (локтевые) точки.

В этой ссылке есть много подвопросов, в которых один из них объясняет, почему авторы используют максимальную «стабильность» СН для определения количествакластеры.Однако для этого подвопроса не было ответа, который бы объяснил это решение.

Максимальная «стабильность» в этом вопросе связана с L-методом, поскольку они выбирают точки, где изменения начинают быть наименьшими.

В чем может быть причина для использования L-метода (или максимальной стабильности) с индексами CH и SIL, которые, как правило, нужны мне максимально?(Я бы понял, если бы они использовали, например, сумму квадратов в пределах)

Anony-Mousse · Answer 1 · 19 октября 2018

Общая проблема с кластерным анализом состоит в том, что люди заранее настроены на то, что должна быть хорошей кластеризацией, и что должно быть достижимым с их предварительной обработкой, методом ипараметры. Сбой кластеризации явно не был вариантом - но это должно было быть .В частности, если вы (должны) выполнять большую часть предварительной обработки, это может легко привести к сбою.Примените PCA к достаточно сложным данным, и все, что вы получите, - это одиночный гауссовоподобный шарик.Самая большая ошибка в статистике заключается в том, что вы не проверяете, могут ли все ваши гипотезы ошибаться ...

Вы можете найти успешные графики CH и Silhouette, например, здесь:

https://mathworks.com/help/stats/clustering.evaluation.calinskiharabaszevaluation-class.html

https://mathworks.com/help/stats/clustering.evaluation.silhouetteevaluation-class.html

График указывает на то, что, по данным Iris с очень хорошим поведением, 3 кластера, вероятно, являются лучшим выбором.Вот как должен выглядеть график силуэта CH соответственно , если , то вы хотите использовать его для спора о количестве кластеров.Если на графике такой пик не показан, вы, вероятно, не сможете его использовать - или все ваши кластеры плохие ...

Следует также отметить, что эти меры являются просто эвристикой.Чем лучше CH или Силуэт не гарантирует лучший результат для всех целей.

Зачем искать Elbow (или использовать L-метод) с CH и SIL для выбора числа кластеров?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Зачем искать Elbow (или использовать L-метод) с CH и SIL для выбора числа кластеров?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы