Статистическая корреляция: Пирсон или Спирмен? - PullRequest
3 голосов
/ 18 июля 2011

У меня 2 серии по 45 значений в интервале [0,1].Первая серия - это сгенерированный человеком стандарт, вторая - сгенерированная компьютером (полная серия здесь http://www.copypastecode.com/74844/). Первая серия отсортирована по убыванию.

0.909090909 0.216196598
0.909090909 0.111282099
0.9 0.021432587
0.9 0.033901106
...
0.1 0.003099256
0   0.001084533
0   0.008882249
0   0.006501463

Теперь я хочу оценитьстепень, в которой порядок сохраняется во второй серии, учитывая, что первая серия является монотонной. корреляция Пирсона равна 0,454763067, но я думаю, что эта связь не является линейной, поэтому эту величину трудно интерпретировать.

Естественным подходом было бы использование ранговой корреляции Спирмена , которая в данном случае составляет 0,670556181. Я заметил, что при случайных значениях, в то время как Пирсон очень близок к 0, ранговая корреляция Спирменаподнимается до 0,5, поэтому значение 0,67 кажется очень низким.

Что бы вы использовали для оценки сходства порядка между этими двумя сериями?

1 Ответ

6 голосов
/ 18 июля 2011

Я хочу оценить степень сохранения порядка

Поскольку вам важен порядок (ранг), корреляция рангов Спирмена является наиболее значимой метрикой.

Я заметил, что при случайных значениях [...] ранг Спирмена возрастает до 0,5

Как вы генерируете эти случайные значения? Я только что провел простой эксперимент с некоторыми случайными числами, сгенерированными с использованием numpy, и я не вижу этого:

In [1]: import numpy as np

In [2]: import scipy.stats

In [3]: x = np.random.randn(1000)

In [4]: y = np.random.randn(1000)

In [5]: print scipy.stats.spearmanr(x, y)
(-0.013847401847401847, 0.66184551507218536)

Первое число (-0,01) - коэффициент ранговой корреляции; второе число (0,66) равно связанному p-значению .

...