Я работаю с файлами CSV, и у меня есть код, который вычисляет сходство между документами. Пост 1 предоставляет код и детали данных, а вывод выглядит следующим образом:
data.csv выглядит так:
idx messages
112 I have a car and it is blue
114 I have a bike and it is red
115 I don't have any car
117 I don't have any bike
Вывод:
id 112 114 115 117
id
112 100.0 78.0 51.0 50.0
114 78.0 100.0 47.0 54.0
115 51.0 47.0 100.0 83.0
117 50.0 54.0 83.0 100.0
Теперь я хотел бы вычислить среднее и стандартное отклонение нижней треугольника матрицы подобия (поскольку верхняя и нижняя части похожи) без данных идентичности (100,0).
Я попытался использовать встроенное среднее значение панды и стандартное значение как:
df_std = df.std()
df_Mean = df.mean()
Но при этом учитываются все данные в выводе, такие как тождество и верхний треугольник.
Я хотел бы знать, есть ли способ, которым я могу вычислить среднее и стандартное отклонение, как я упоминал.