Общая проблема с кластерным анализом состоит в том, что люди заранее настроены на то, что должна быть хорошей кластеризацией, и что должно быть достижимым с их предварительной обработкой, методом ипараметры. Сбой кластеризации явно не был вариантом - но это должно было быть .В частности, если вы (должны) выполнять большую часть предварительной обработки, это может легко привести к сбою.Примените PCA к достаточно сложным данным, и все, что вы получите, - это одиночный гауссовоподобный шарик.Самая большая ошибка в статистике заключается в том, что вы не проверяете, могут ли все ваши гипотезы ошибаться ...
Вы можете найти успешные графики CH и Silhouette, например, здесь:
https://mathworks.com/help/stats/clustering.evaluation.calinskiharabaszevaluation-class.html
https://mathworks.com/help/stats/clustering.evaluation.silhouetteevaluation-class.html
График указывает на то, что, по данным Iris с очень хорошим поведением, 3 кластера, вероятно, являются лучшим выбором.Вот как должен выглядеть график силуэта CH соответственно , если , то вы хотите использовать его для спора о количестве кластеров.Если на графике такой пик не показан, вы, вероятно, не сможете его использовать - или все ваши кластеры плохие ...
Следует также отметить, что эти меры являются просто эвристикой.Чем лучше CH или Силуэт не гарантирует лучший результат для всех целей.