Допустим, у меня есть 50000 строк, в каждой из которых есть 10000 столбцов или около того, которые являются истинными или ложными.Чтобы увидеть, насколько переменная A похожа на другую переменную B, я могу взять индекс Жакара, AB / (AB + Ab + aB), где AB = и A, и B истинны, Ab = A истинно, B ложно и aB= A ложно, B верно.В этом конкретном наборе данных я обнаружил, что масштабирование влияния каждой строки в наборе данных на обратную величину суммы истин дает еще лучшие результаты по индексу Жакарда.
Я хочу знать, сколько еще я смогу это сделать.Рассмотрим следующий фрагмент данных
ROW ABCDE
001 10010
002 01010
003 10010
004 01010
005 00101
006 00101
Индекс Жаккара будет иметь А и В, имеющие сходство 0, а также А и С, имеющие нулевое сходство, поскольку ни один из них не разделяет запись.Однако, интуитивно A и B должны иметь более высокое сходство, поскольку оба они находятся в строках с D = 1 и E = 0, в отличие от переменной C, которая находится только в строках с D = 0 и E = 1.
Есть ли мера, которая учитывает это?Или какие-нибудь предложения о том, где я мог бы начать искать?