как решить, две переменные взаимосвязаны - PullRequest
0 голосов
/ 06 мая 2018

Выполнение приведенной ниже команды в R:

cor.test(loandata$Age,loandata$Losses.in.Thousands)
  • loandata - это имя набора данных
  • Age является независимой переменной
  • Losses.in.Thousands является зависимой переменной

Ниже приведен результат в R:

Pearson's product-moment correlation

data:  loandata$Age and loandata$Losses.in.Thousands

t = -61.09, df = 15288, p-value < 2.2e-16

alternative hypothesis: true correlation is not equal to 0


95 percent confidence interval:

 -0.4556139 -0.4301315

sample estimates:

       cor 

-0.4429622 

Как решить, соотносится ли Age с Losses.in.Thousand? Как мы решаем, глядя на значение р с альфа = 0,05?

Ответы [ 3 ]

0 голосов
/ 07 мая 2018

Как указано в другом ответе, коэффициент корреляции, производимый cor.test() в ОП, равен -0,4429. Коэффициент корреляции Пирсона является мерой линейной связи между двумя переменными. Она варьируется от -1,0 (идеальная отрицательная линейная ассоциация) до 1,0 (идеальная положительная линейная ассоциация), величина - это абсолютное значение коэффициента или его расстояние от 0 (без ассоциации).

t-критерий показывает, значительно ли корреляция отличается от нуля, учитывая его величину относительно стандартной ошибки. В этом случае значение вероятности для t-критерия p <2,2e-16 указывает на то, что мы должны отвергнуть нулевую гипотезу о том, что корреляция равна нулю. </p>

Тем не менее, вопрос ОП:

Как решить, коррелируется ли Age с Losses.in.Thousands?

имеет два элемента: статистическую значимость и материальное значение.

С точки зрения статистической значимости t-критерий показывает, что корреляция не равна нулю. Поскольку стандартная ошибка корреляции изменяется обратно пропорционально степеням свободы, очень большое число степеней свободы, указанное в OP (15 288), означает, что намного меньшая корреляция все равно приведет к статистически значимому t-критерию. Вот почему необходимо учитывать существенное значение в дополнение к статистической значимости.

С точки зрения существенного значения толкования могут быть разными. Hemphill 2003 цитирует эмпирическое правило Коэна (1988) для величин корреляции в психологических исследованиях:

  • 0.10 - низкий
  • 0,30 - средний
  • 0,50 - высокий

Хемфилл продолжает проводить мета-анализ коэффициентов корреляции в психологических исследованиях, которые он обобщил в следующей таблице.

enter image description here

Как видно из таблицы, эмпирические указания Хемфилла гораздо менее строгие, чем предыдущие рекомендации Коэна.

Альтернатива: коэффициент детерминации

В качестве альтернативы коэффициент детерминации r^2 можно использовать как пропорциональное уменьшение погрешности измерения. В этом случае r^2 = 0,1962, и мы можем интерпретировать его как «Если мы знаем возраст человека, мы можем уменьшить нашу ошибку в прогнозировании потерь в тысячах примерно на 20%».

Ссылка: Статистический учебник Берта Герстмана, Государственный университет Сан-Хосе .

Вывод: интерпретация зависит от домена

Учитывая проблемную область, если литература принимает величину корреляции 0,45 как «большую», то рассматривайте ее как большую, как это имеет место во многих социальных науках. В других областях, однако, требуется намного большая величина, чтобы корреляция считалась «большой».

Иногда даже "небольшая" корреляция имеет существенное значение, как отмечает Hemphill 2003 в своем заключении.

Например, даже если корреляция между приемом аспирина и предотвращением сердечного приступа составляет всего r=0.03 по величине (см. Rosenthal 1991, p. 136) - мала по большинству статистических стандартов - это значение может быть социально значимым и тем не менее влияют на социальную политику.

0 голосов
/ 07 мая 2018

Нулевая гипотеза теста Пирсона состоит в том, что две переменные не коррелированы: H0 = {rho = 0}

p-значение - это вероятность того, что статистика теста (или ее абсолютное значение для двухстороннего теста) окажется за пределами фактического наблюдаемого результата (или его абсолютного значения для двухстороннего теста). Вы можете отклонить гипотезу, если значение p меньше уровня достоверности. Это случай в вашем тесте, который означает, что переменные коррелируют.

0 голосов
/ 06 мая 2018

Чтобы узнать, коррелируются ли переменные, нужно посмотреть значение cor = -0.4429

В вашем случае значения имеют отрицательную корреляцию, однако величина корреляции не очень высока.

Простой, менее запутанный способ проверить, коррелированы ли две переменные, вы можете сделать:

cor(loandata$Age,loandata$Losses.in.Thousands)
[1] -0.4429622 
...