Question

Допустим, у меня есть 50000 строк, в каждой из которых есть 10000 столбцов или около того, которые являются истинными или ложными.Чтобы увидеть, насколько переменная A похожа на другую переменную B, я могу взять индекс Жакара, AB / (AB + Ab + aB), где AB = и A, и B истинны, Ab = A истинно, B ложно и aB= A ложно, B верно.В этом конкретном наборе данных я обнаружил, что масштабирование влияния каждой строки в наборе данных на обратную величину суммы истин дает еще лучшие результаты по индексу Жакарда.

Я хочу знать, сколько еще я смогу это сделать.Рассмотрим следующий фрагмент данных

Индекс Жаккара будет иметь А и В, имеющие сходство 0, а также А и С, имеющие нулевое сходство, поскольку ни один из них не разделяет запись.Однако, интуитивно A и B должны иметь более высокое сходство, поскольку оба они находятся в строках с D = 1 и E = 0, в отличие от переменной C, которая находится только в строках с D = 0 и E = 1.

Есть ли мера, которая учитывает это?Или какие-нибудь предложения о том, где я мог бы начать искать?

Существует ли более продвинутый метод сходства двоичных переменных, чем индекс Джакарда?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Существует ли более продвинутый метод сходства двоичных переменных, чем индекс Джакарда?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Нет похожих вопросов