Я создаю дерево решений в R (RStudio), используя исторические коэффициенты ставок, найденные по адресу http://www.football -data.co.uk / englandm.php .Мне интересно узнать, как шансы репрезентативных букмекеров соответствуют реальным результатам матчей.Я использую данные матчей за период с 2000/2001 по сезон 2017/2018.Это соответствует 6480 матчам.Я очистил отдельные файлы и объединил их вместе.Учитывая, что в столбцах коэффициентов ставок было много пропущенных значений (у некоторых было больше коэффициентов у разных букмекеров, чем у других), я использовал средние значения для коэффициентов выигрышей дома, ничьих и гостей.
Чтобы избежать путаницы, имена переменных:
- FTR: полный рабочий день (это мой целевой класс и имеет 3 возможности: H, D или A)
- AHWO: средние шансы на домашний выигрыш
- ADO: средние шансы на ничью
- AAWO: средние шансы на победу в гостях
Вот мое дерево решений.
Дерево решений
Проблема, с которой я столкнулся, заключается в том, что моя система прогнозирования не предсказывает ничьи.Я поигрался с параметрами, добавив больше предикторов, но безрезультатно.
Существует также проблема, когда при использовании в качестве предикторов только домашних и выездных целей я получаю рейтинг точности только 0,9988802 (на моемданные испытаний).Разве это не должно быть 100%?
Таблица частот прогноза
Мой код
Точность классификации