Первая идея, которую вы должны попробовать, - это масштабировать каждую из ваших функций независимо, прежде чем сравнивать их.
Например, получите все ваши p1
выборки, вычислите среднее значение и стандартное отклонение, а затем преобразуйте ваши образцы в (s - mean)/std
. Сделайте это для каждой из ваших функций, за исключением тех, которые уже являются двоичными (0/1).
Тогда вы можете использовать евклидово расстояние в качестве первого испытания для анализа, если точки далеки или нет.
Меры сходства - это что-то другое, но они похожи, вы можете использовать что-то вроде e^(-distance(x, y))
, чтобы получить сходство между 0 и 1, и есть и другие меры, которые можно попробовать также. Вы должны использовать их для масштабированных данных, а не для исходных.