Коэффициент корреляции между номинальными и кардинальными переменными шкалы - PullRequest
0 голосов
/ 15 января 2020

Я должен описать корреляцию между переменной «Среднее количество пройденных за игру» (кардинальная шкала) и переменной «Позиция» (номинальная шкала) и измерить силу корреляции. Для этого мне нужно правильно выбрать коэффициент корреляции с учетом шкал. Кто-нибудь знает, как лучше всего это сделать? Я не уверен, что использовать, так как это две разные шкалы. Полный набор данных состоит из следующих переменных:

  • ИГРОК: Имя игрока
  • СТРАНА: Страна происхождения
  • ДЕНЬ РОЖДЕНИЯ: Дата рождения
  • HEIGHT_IN_CM: высота игрока
  • ПОЛОЖЕНИЕ: позиция игрока
  • PASSES_COMPLETED: Проходы завершены игроком
  • DISTANCE_COVERED: расстояние, пройденное игроком в км
  • MINUTES_PLAYED: сыгранные минуты
  • AVG_PASSES_COMPLETED: Среднее количество проходов, выполненных игроком

Я был бы очень признателен, если бы кто-нибудь дал мне несколько советов по этому поводу.

Спасибо!

1 Ответ

0 голосов
/ 15 января 2020

ОК, так что вам нужно несколько переопределить ваш вопрос. Без двух непрерывных переменных корреляции не могут быть использованы для «описания» отношений, как я полагаю, вы спрашиваете. Однако вы можете увидеть, есть ли статистически значимые различия в показателях прохода между разными позициями. Что касается вопросов по статистике, я согласен с Мауртисом ... CV - лучшее место. Что касается кода для выполнения тестов, попробуйте следующее:

Во-первых, вы должны убедиться, что у вас установлены правильные пакеты. Вам определенно понадобятся ggplot и ggfortify и, возможно, другие, если вам придется манипулировать данными или другими вещами. И загрузите библиотеки:

library(ggplot2)
library(ggfortify)

Далее убедитесь, что ваши данные аккуратны: ie, переменные в столбцах.

Затем импортируйте данные в R:

#find file
data.location = file.choose()
#Import data
curr.data <- read.csv(data.location)
#Check data import
glimpse(curr.data)

Затем построите график, используя ggplot:

ggplot(curr.data, aes(x = POSITION, y = AVG_PASSES_COMPLETED)) +
  geom_boxplot() +
  theme_bw()

Затем смоделируйте с помощью функции линейной модели (lm()), чтобы увидеть, есть ли существенная разница в скоростях прохождения по отношению к позиции.

passrate_model <- lm(AVG_PASSES_COMPLETED ~ POSITION, data = curr.data)

Прежде чем проверять свою гипотезу, вам необходимо проверить соответствие модели

autoplot(passrate_model, smooth.colour = NA)

Если остаточные участки выглядят нормально, то мы готовы к проверке. Если нет, то вам придется использовать другой тип модели (и я не буду вдаваться в это здесь, сейчас ....).

Подходящим тестом для этого (я думаю) будет тест Тьюки, который требует ANOVA. Это даст сводку и покажет вам, есть ли расхождения из-за положения:

passrate_av <- aov(passrate_model)
summary(passrate_av)

Это выполнит тест Тьюки и даст попарные сравнения, включая разницу в средних, 95% доверительные интервалы и скорректированные значения p:

tukey.test <- TukeyHSD(passrate_av)
tukey.test

И он может даже сделать хороший сюжет для вас:

plot(tukey.test)
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...