корреляция между целыми числами в R - PullRequest
0 голосов
/ 28 февраля 2019

Мне интересно оценить связь результата вступительного экзамена с результатами экзаменов первого семестра - обе переменные являются целыми числами.Я рассчитал корреляцию Пирсона для них.

Однако, поскольку мои переменные являются целыми числами, точка рассеяния на самом деле не разбросана.

Есть ли лучший способ рассчитать и визуализировать корреляцию?Или какой-либо другой показатель их отношений?

Что если мои два целых числа не распределены нормально?

Проблема в том, что они не являютсяпо той же шкале? final выражается в процентах, а entrance_exam - это тестовая оценка от 0-15.

test_data <- data.frame("entrance_exam" = sample(0:15,200,replace=T), "final" = sample(0:100,200,replace=T))
str(test_data)
cor.test(entrance_exam,percentage)

ggplot(test_data, aes(x=entrance_exam, y=final)) + 
  geom_point()+
  geom_smooth(method=lm, color="black")+
  # labs(title="Correlation between Diagnostic testscore and Percentage",
       # x= "Total testscore", y = "Percentage" )+
  theme(plot.title = element_text(size=15, face="bold", hjust = 0.5))

enter image description here

1 Ответ

0 голосов
/ 28 февраля 2019

Если допущение нормального распределения нарушено, вы можете использовать тест ранговой корреляции (Спирмен): cor.test(test_data$entrance_exam,test_data$final, m = 's')
Возвращает значение rho Копья, которое вы можете интерпретировать так, как если бы оно было r Пирсона.

Существуют преобразования, которые вы можете использовать для процентного значения, но поскольку корреляционный тест Спирмена ранжирует данные, это не имеет значения.

Это становится проблемой, когда одна из ваших осей выражается какдискретные переменные, в которых вы должны использовать Kendall tau.

см. страница википедии

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...