Какие существуют способы оценки сходства кластеров? - PullRequest
0 голосов
/ 30 марта 2020

Предположим, у меня есть два способа кластеризации одного и того же набора данных, и я хочу вычислить сходство их выходных данных. Я должен был бы вычислить что-то похожее на корреляцию, но метки кластера являются категориальной переменной. Я думал об использовании хи-квадрата, но не рекомендуется делать это, когда несколько ячеек в таблице сопряженности <5 (и это часто случается, когда кластеры очень похожи). Другой подсказкой было использование точного теста Фишера, но реализация scipy Python работает только для матриц на случай непредвиденных обстоятельств 2x2, и я, вероятно, буду работать с большими матрицами (например, 10x10 или 8x6). </p>

Есть ли какие-либо другие установленные методы сравнения кластеров таким образом? Есть ли у них Python реализации?

1 Ответ

0 голосов
/ 31 марта 2020

Отлично Python Реализации существуют на https://scikit-learn.org/stable/modules/clustering.html#clustering -performance-оценка . У каждого есть свои плюсы и минусы. Как для сравнения результата кластеризации с его основными метками истинности (внешними), так и для оценки результата кластеризации по таким критериям, как расстояние между центроидами кластеров (внутренними) и т. Д. Матрица непредвиденных обстоятельств дает отличное представление о вашей кластеризации, но не дает числового значения, чтобы «доказать, что ваша кластеризация была хорошей».

Если ваш набор данных очень большой и имеет много измерений, внутренние меры проверки могут быть чрезмерно медленными .

...