Я изучаю R и использую набор данных Лахмана, чтобы определить, влияет ли зарплата игрока на то, как они или их команда играют.Пока я копаюсь в данных, мне любопытно узнать, различается ли зарплата игрока в зависимости от того, в какой лиге он играет (AL или NL).Я написал эту программу, чтобы увидеть, являются ли они зависимыми ... и я удивлен, обнаружив, что они есть.Это то, как я хотел бы ответить на этот вопрос?
library(tidyverse)
library(Lahman)
#Brings salary information together with batting
bat_salaries <- left_join(Batting,Salaries, suffix = c(".x", ".y"))
bat_salaries <- left_join(bat_salaries, Teams, by = c("yearID", "teamID", "lgID"), suffix = c("_individual", "_team"))
#I noticed the tail of bat_salaries$salary is very heavy after the 3rd IQR - I cut it off to only look at
#data before the 3rd IQR
bat_salaries_iqr3 <- bat_salaries %>%
filter(salary < 2350000 & salary > 0)
bat_salaries_chi <- bat_salaries_iqr3 %>%
select(salary) %>%
mutate(leagID = ifelse(bat_salaries_iqr3$lgID == "NL", 1, 0))
chisq.test(table(bat_salaries_chi), correct = FALSE)
Pearson's Chi-squared test
data: table(bat_salaries_chi)
X-squared = 2462.6, df = 2139, p-value = 1.13e-06