Я думаю, что основной интуитивный момент - тот, который упоминается в сообщении в блоге, на которое вы уже ссылались,
Как два случайных набора имеют RI, близкий к 1? Причина кроется в количестве кластеров. Когда кластеров много, существует большая вероятность, что пара предметов в обоих наборах находится в разных кластерах. Это все еще считается согласованным событием в РИ.
RI считает это "успехом", если пара элементов или оба в одном и том же соответствующем кластере каждого раздела, или , если оба находятся в разных соответствующих кластерах каждого перегородка.
На это понятие "успех" может неблагоприятно повлиять случайный случай, просто увеличив число кластеров в разделе. Например, представьте набор данных со 100 примерами. Раздел X разделит его на 100 различных подмножеств, каждое с 1 точкой данных. Раздел Y разделит его на 99 подмножеств, 98 с одной точкой данных каждая и 1 с двумя точками данных.
Обычный RI выглядел бы почти идеально для этого случая, потому что для любых двух точек, выбранных случайным образом, они определенно находятся в двух разных подмножествах в X, и единственный способ, которым они не находятся в двух разных подмножествах в Y, - это маловероятный шанс того, что мы нарисовали два элемента из специального 99-го подмножества, которое содержит два элемента. Таким образом, RI будет очень близко к 1 (и если мы сделаем набор данных больше 100, мы можем сделать его произвольно близким к 1).
Но для ARI все термины n_ij
в таблице сопряженности по определению будут 1 или 0, что означает, что числитель должен быть отрицательным, что указывает на плохое сходство кластеров (что в основном обусловлено тем фактом, что единственной «информацией», которую несут эти разделы, является одно подмножество Y, имеющее две точки данных ... поэтому, если X не воспроизводит это, в некотором смысле это значительно плохо воспроизводит отношения, обозначенные Y).
Вы можете сделать этот мысленный эксперимент более сложным, представив X как 50 различных наборов двухэлементных пар, а Y как различные наборы из 50 различных наборов двухэлементных пар. Опять же, RI может выглядеть хорошо просто случайно, потому что большинство элементов времени будут случайным образом оба не принадлежать к одному и тому же двухэлементному подмножеству. Он будет оштрафован только за пары, которые на самом деле принадлежат друг другу либо в X, либо в Y (100 возможных пар), тогда как для остальных (100 choose 2) - 100
оставшихся пар RI помечает их как успешно помещенные в разные группы как в X, так и в Y. Опять же, увеличение размера набора данных еще больше улучшит RI.