Существует ли более продвинутый метод сходства двоичных переменных, чем индекс Джакарда? - PullRequest
0 голосов
/ 28 октября 2018

Допустим, у меня есть 50000 строк, в каждой из которых есть 10000 столбцов или около того, которые являются истинными или ложными.Чтобы увидеть, насколько переменная A похожа на другую переменную B, я могу взять индекс Жакара, AB / (AB + Ab + aB), где AB = и A, и B истинны, Ab = A истинно, B ложно и aB= A ложно, B верно.В этом конкретном наборе данных я обнаружил, что масштабирование влияния каждой строки в наборе данных на обратную величину суммы истин дает еще лучшие результаты по индексу Жакарда.

Я хочу знать, сколько еще я смогу это сделать.Рассмотрим следующий фрагмент данных

 ROW ABCDE
 001 10010
 002 01010
 003 10010
 004 01010
 005 00101
 006 00101

Индекс Жаккара будет иметь А и В, имеющие сходство 0, а также А и С, имеющие нулевое сходство, поскольку ни один из них не разделяет запись.Однако, интуитивно A и B должны иметь более высокое сходство, поскольку оба они находятся в строках с D = 1 и E = 0, в отличие от переменной C, которая находится только в строках с D = 0 и E = 1.

Есть ли мера, которая учитывает это?Или какие-нибудь предложения о том, где я мог бы начать искать?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...