У меня есть набор данных игр NBA с играми 2012-13 / 2016-17 гг., Включая плей-офф, помеченные отдельно как плей-офф на 2013-2017 гг. С чуть более 6000+ строками, которые я строил, и выглядит следующим образом.
Date Visitor V_PTS Home \
25 2012-11-03 19:00:00 Sacramento Kings 98 Indiana Pacers
26 2012-11-03 19:00:00 New Orleans Pelicans 89 Chicago Bulls
27 2012-11-03 19:00:00 Boston Celtics 89 Washington Wizards
28 2012-11-03 19:00:00 Portland Trail Blazers 95 Houston Rockets
29 2012-11-03 19:30:00 Toronto Raptors 100 Brooklyn Nets
30 2012-11-03 19:30:00 Charlotte Hornets 99 Dallas Mavericks
31 2012-11-03 19:30:00 Golden State Warriors 114 Los Angeles Clippers
H_PTS Attendance Arena Location \
25 106 18165 Bankers Life Fieldhouse Indianapolis, Indiana
26 82 21758 United Center Chicago, Illinois
27 86 20308 Capital One Arena Washington, D.C.
28 85 18140 Toyota Center Houston, Texas
29 107 17732 Barclays Center Brooklyn, New York
30 126 19490 American Airlines Center Dallas, Texas
31 110 19060 Staples Center Los Angeles, California
Capacity Yr Arena Opened Season H_Allstars V_Allstars V_wins \
25 17923 1999 2012-13 1 0 0
26 20917 1994 2012-13 2 0 1
27 20356 1997 2012-13 0 2 0
28 18055 2003 2012-13 1 1 1
29 17732 2012 2012-13 1 0 0
30 19200 2001 2012-13 0 0 1
31 19060 1999 2012-13 2 1 1
V_losses H_wins H_losses V_WPercent H_WPercent
25 2 1 1 0.0 0.5
26 1 2 0 0.5 1.0
27 2 0 1 0.0 0.0
28 1 2 0 0.5 1.0
29 1 0 0 0.0 0.0
30 0 1 1 1.0 0.5
31 1 2 0 0.5 1.0
Я не пытаюсь сделать что-то слишком интенсивное, но я пытаюсь выяснить, что влияет / предсказывает посещаемость NBA для команд с достаточной степенью точности. Есть ли какие-то другие переменные предиктора, которые вы бы порекомендовали добавить? Как бы вы предложили изучить данные, чтобы понять, какого типа могут быть полезны пакеты ML? Мой самый первый личный проект, так что любые советы / примеры очень ценятся.
Обновление:
После некоторого быстрого изучения и просмотра некоторых пошаговых онлайн-руководств я наткнулся на эту матрицу корреляции по заполненному проценту мощности. Я могу ошибаться, но эти цифры кажутся низкими? Является ли каждая команда слишком специфичной, и мне, возможно, придется сосредоточиться на командах, которые не продаются последовательно, или есть какая-то переменная, о которой я должен подумать, в том числе, что может иметь какое-то отношение к прошлой истории посещаемости?
![Correlation Matrix for Capacity Percentage](https://i.stack.imgur.com/rtgwm.png)