Предположим, у меня есть два способа кластеризации одного и того же набора данных, и я хочу вычислить сходство их выходных данных. Я должен был бы вычислить что-то похожее на корреляцию, но метки кластера являются категориальной переменной. Я думал об использовании хи-квадрата, но не рекомендуется делать это, когда несколько ячеек в таблице сопряженности <5 (и это часто случается, когда кластеры очень похожи). Другой подсказкой было использование точного теста Фишера, но реализация scipy Python работает только для матриц на случай непредвиденных обстоятельств 2x2, и я, вероятно, буду работать с большими матрицами (например, 10x10 или 8x6). </p>
Есть ли какие-либо другие установленные методы сравнения кластеров таким образом? Есть ли у них Python реализации?