Почему скорректированный рандовый индекс (ARI) лучше рандового индекса (RI) и как интуитивно понять ARI из формулы - PullRequest
0 голосов
/ 08 мая 2018

Я прочитал статью в Википедии о Индекс Рэнда и Скорректированный Индекс Рэнда . Я могу понять, как они рассчитываются математически, и могу интерпретировать индекс Рэнда как соотношение соглашений по разногласиям. Но мне не хватает той же интуиции в отношении ОРЗ.

Этот пост объясняет, почему ARI лучше, чем RI, принимая во внимание вероятность совпадения. Может кто-нибудь объяснить, почему ОРИ лучше, чем РИ, на примере или интуитивном объяснении.

1 Ответ

0 голосов
/ 08 мая 2018

Я думаю, что основной интуитивный момент - тот, который упоминается в сообщении в блоге, на которое вы уже ссылались,

Как два случайных набора имеют RI, близкий к 1? Причина кроется в количестве кластеров. Когда кластеров много, существует большая вероятность, что пара предметов в обоих наборах находится в разных кластерах. Это все еще считается согласованным событием в РИ.

RI считает это "успехом", если пара элементов или оба в одном и том же соответствующем кластере каждого раздела, или , если оба находятся в разных соответствующих кластерах каждого перегородка.

На это понятие "успех" может неблагоприятно повлиять случайный случай, просто увеличив число кластеров в разделе. Например, представьте набор данных со 100 примерами. Раздел X разделит его на 100 различных подмножеств, каждое с 1 точкой данных. Раздел Y разделит его на 99 подмножеств, 98 с одной точкой данных каждая и 1 с двумя точками данных.

Обычный RI выглядел бы почти идеально для этого случая, потому что для любых двух точек, выбранных случайным образом, они определенно находятся в двух разных подмножествах в X, и единственный способ, которым они не находятся в двух разных подмножествах в Y, - это маловероятный шанс того, что мы нарисовали два элемента из специального 99-го подмножества, которое содержит два элемента. Таким образом, RI будет очень близко к 1 (и если мы сделаем набор данных больше 100, мы можем сделать его произвольно близким к 1).

Но для ARI все термины n_ij в таблице сопряженности по определению будут 1 или 0, что означает, что числитель должен быть отрицательным, что указывает на плохое сходство кластеров (что в основном обусловлено тем фактом, что единственной «информацией», которую несут эти разделы, является одно подмножество Y, имеющее две точки данных ... поэтому, если X не воспроизводит это, в некотором смысле это значительно плохо воспроизводит отношения, обозначенные Y).

Вы можете сделать этот мысленный эксперимент более сложным, представив X как 50 различных наборов двухэлементных пар, а Y как различные наборы из 50 различных наборов двухэлементных пар. Опять же, RI может выглядеть хорошо просто случайно, потому что большинство элементов времени будут случайным образом оба не принадлежать к одному и тому же двухэлементному подмножеству. Он будет оштрафован только за пары, которые на самом деле принадлежат друг другу либо в X, либо в Y (100 возможных пар), тогда как для остальных (100 choose 2) - 100 оставшихся пар RI помечает их как успешно помещенные в разные группы как в X, так и в Y. Опять же, увеличение размера набора данных еще больше улучшит RI.

...