Предложения по построению предикторов - PullRequest
0 голосов
/ 07 мая 2019

Прогнозирование поддельных данных о футболе

У меня есть проблема, которую я проиллюстрирую, используя вымышленные данные о футбольных матчах.Моя модель предсказывает победителя футбольного матча, а затем я использую предикат (), чтобы предсказать исход данных за пределами выборки.

Демонстрационные данные:

library(margins)
library(tidyverse)

fotball_data <- data_frame(TeamA = c("Manchester United", "Liverpool", "Blackburn", "Manchester United", "Arsenal", "Newcastle"),
                           GoalsA = c(15, 10, 5, 15, 8, 12),
                           TeamB = c("Manchester City", "Arsenal", "Queens Park Rangers", "Blackburn", "Manchester City", "Arsenal"),
                           GoalsB = c(7, 8, 10, 5, 7, 8),
                           Team.A.Won = c(1, 1, 0, 1, 1, 1))


> head(fotball_data)
    # A tibble: 6 x 5
      TeamA             GoalsA TeamB               GoalsB Team.A.Won
      <chr>              <dbl> <chr>                <dbl>      <dbl>
    1 Manchester United     15 Manchester City          7          1
    2 Liverpool             10 Arsenal                  8          1
    3 Blackburn              5 Queens Park Rangers     10          0
    4 Manchester United     15 Blackburn                5          1
    5 Arsenal                8 Manchester City          7          1
    6 Newcastle             12 Arsenal                  8          1

fotball_model <- glm(Team.A.Won ~ GoalsA + GoalsB, 
                     data = fotball_data,
                     family = "binomial")

summary(fotball_model)


newdata <- data_frame(TeamA = c("Tottenham"), GoalsA = 12, TeamB = c("Chelsea"), GoalsB = 7, Team.A.Won = 1)
prediction <- predict.glm(fotball_model, newdata = newdata, type = "response")

Пока все хорошо Все это прекрасно работает.Моя проблема в интерпретации полученных прогнозов.

Я могу оценить, почему TeamA выиграла в этом случае.Проблема возникает, когда количество переменных резко увеличивается.С 20 переменными я больше не могу доверять своим глазам.

То, что я хотел бы сделать, это построить коэффициенты newdata рядом для этого единственного соответствия.

Неудивительно, что когда TeamA (Тоттенхэм) имеет преимущество в голах в сезоне 12, а TeamB (Челси) имеет преимущество в 7, предикат () считает, что TeamA победит.

> prediction
1 
1 

Есть ли у вас какие-либо предложения для построения коэффициентов?Я знаю, что, возможно, подошел к этому слишком трудным образом.Я всегда нахожу, что у хороших людей в stackoverflow есть хорошее удобное решение.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...