Среднее может создать некоторые проблемы для вашей цели, поскольку оно не уникально для набора данных. Это означает, что вы никогда не можете быть уверены, что два набора данных совпадают, если вы основываете свой хэш на среднем значении набора данных.
Вот пример:
Допустим, ваш набор данных [1,1,1]. Теперь вы вычисляете среднее значение, равное 1. Далее вы создаете хэш 1. Теперь, как вы убедитесь, что после изменения более чем одной точки данных вы не получите [1,0, 2], [3,0,0] или любой другой набор данных, который дает среднее значение 1 и, следовательно, тот же хэш?
Стандартное отклонение, дисперсия и корреляция приводят к одной и той же ловушке.
Однако вы все еще можете быть уверены, что два набора данных с разными хэшами не совпадают. Просто не получается сказать, что два набора данных с одинаковым хешем одинаковы.
Чтобы свести к минимуму вероятность создания одного и того же хэша из двух разных наборов данных, вы можете рассчитать отпечаток Рабина вашего набора данных и сгенерировать из этого хэш. См https://en.wikipedia.org/wiki/Rabin_fingerprint