У меня есть фрейм данных размером mxn двоичных векторов с некоторыми незаполненными значениями, как в приведенном ниже примере
col1 col2 col3 col4 col5
V0 1 0 1
V1 1 1 0
V2 0 1 0 1
V3 0 0
Я бы хотел вычислить матрицу сходства для этого фрейма данных так, чтобы получить оценку сходства между любыми двумя векторами.
Каков наилучший способ сделать это?
Примечание: я попытался заменить значения NULL на 2 и применил косинусное сходство из библиотеки scipy на фрейме данных. Матрица результатов не была точной / правильной.