Как вставить дополнительные критерии в мой существующий алгоритм статистики? - PullRequest
0 голосов
/ 12 марта 2020

Проблема

Я пишу веб-приложение, которое предскажет победителя бейсбольного матча. Пользователь выберет две команды, и, основываясь на исторических данных сезона, мое приложение будет предсказывать, какая команда выиграет больше игр в следующем сезоне. В настоящее время приложение использует следующие свойства данных для расчета ожидаемого количества игр:

rs = runs scored
ra = runs allowed
g = number of games played total
actual = the real number of games won

Win Algorithm

Код

var numGames = 162;
var runsScored = 901;
var runsAllowed = 828;

var numActual = 84;

function winsPredicted1(rs, ra, g, actual){
    var wins = ((.102*rs-0.103*ra)/g+.505)*g;
    var diff = wins - numActual;
    return { wins: wins, diff: diff }; // 88, 4
}

и пока все хорошо. Формула становится достаточно близкой ...

 88.42800000000001
 4.4280000000000115

Улучшение результатов

Теперь я хотел бы добавить еще два поля для алгоритма, который необходимо рассмотреть:

  1. Среднее количество заработка
  2. Количество бейсбольных мячей (от этого кувшина)

Я чрезвычайно новичок в статистическом программировании, и я немного исследовал эту топи c. Я не могу понять, как добавить эти новые статистические данные в уравнение и повлиять на их значения на результат.

Этот проект предназначен только для целей обучения. Кто-нибудь может мне помочь с этими двумя новыми полями данных?

Спасибо! Я с нетерпением жду ваших предложений.

J

Ответы [ 2 ]

1 голос
/ 12 марта 2020

Я предполагаю, что коэффициенты 0.102 и 0.103 уже являются результатами статистической регрессии. Как я понимаю, вы хотите найти коэффициенты следующих 2-х функций. Если вы хотите добавить еще 2 функции, вы также должны наблюдать корреляцию между «выигрышным счетом» и этими 2 функциями (они могут даже не быть «линейно коррелированными»). Посмотрите на график для связи и создайте модель со всеми функциями, которые у вас есть.

В конце вы можете получить соответствующие веса.

1 голос
/ 12 марта 2020

Прямо сейчас вы используете модель линейной регрессии, которая включает в себя перехват (β 0 = 0.505) и два коэффициента регрессии (β 1 = 0.102 и β 2 = 0,103). В то время как первый коэффициент регрессии относится к количеству прогонов, забитых за игру (чем больше, тем лучше), второй относится к числу прогонов, разрешенных для игры (чем меньше, тем лучше).

Чтобы добавить больше переменных ( часто называемые «особенностями» в машинном обучении), чтобы уравнение, вы должны построить новую модель линейной регрессии (или другого типа прогнозирования). То есть вы не можете просто добавить эти новые функции в формулу - вам нужно сначала обучить модель, чтобы понять их важность.

Существует множество материалов по статистическому моделированию, поэтому я не буду вдаваться в go здесь. Я бы посоветовал вам пройти онлайн-курс или прочитать книгу по основам контролируемого машинного обучения (которое по сути представляет собой статистическое моделирование с целью прогнозирования). Например, чтение первых нескольких глав Введение в статистическое обучение Джеймсом, Виттеном, Хастом ie и Тибширани, безусловно, поможет вам начать! Авторы опубликовали бесплатный PDF книги.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...