Каков наилучший способ вычисления матрицы сходства для кадра данных двоичных векторов? - PullRequest
0 голосов
/ 27 марта 2020

У меня есть фрейм данных размером mxn двоичных векторов с некоторыми незаполненными значениями, как в приведенном ниже примере

col1 col2 col3 col4 col5
 V0    1         0    1
 V1    1    1         0
 V2    0    1    0    1
 V3         0    0

Я бы хотел вычислить матрицу сходства для этого фрейма данных так, чтобы получить оценку сходства между любыми двумя векторами.

Каков наилучший способ сделать это?

Примечание: я попытался заменить значения NULL на 2 и применил косинусное сходство из библиотеки scipy на фрейме данных. Матрица результатов не была точной / правильной.

1 Ответ

0 голосов
/ 27 марта 2020

Возможно, вы захотите использовать pdist или cdist с двоичными функциями расстояния, такими как игральные кости, жаккарта или хемминга (см. список этих функций в конце этой страницы ).

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...