Достаточно ли у меня данных для проведения надежного анализа? - PullRequest
0 голосов
/ 02 мая 2018

У меня есть набор данных игр NBA с играми 2012-13 / 2016-17 гг., Включая плей-офф, помеченные отдельно как плей-офф на 2013-2017 гг. С чуть более 6000+ строками, которые я строил, и выглядит следующим образом.

                  Date                 Visitor  V_PTS                  Home  \
25 2012-11-03 19:00:00        Sacramento Kings     98        Indiana Pacers   
26 2012-11-03 19:00:00    New Orleans Pelicans     89         Chicago Bulls   
27 2012-11-03 19:00:00          Boston Celtics     89    Washington Wizards   
28 2012-11-03 19:00:00  Portland Trail Blazers     95       Houston Rockets   
29 2012-11-03 19:30:00         Toronto Raptors    100         Brooklyn Nets   
30 2012-11-03 19:30:00       Charlotte Hornets     99      Dallas Mavericks   
31 2012-11-03 19:30:00   Golden State Warriors    114  Los Angeles Clippers   

    H_PTS  Attendance                     Arena                 Location  \
25    106       18165   Bankers Life Fieldhouse    Indianapolis, Indiana   
26     82       21758             United Center        Chicago, Illinois   
27     86       20308         Capital One Arena         Washington, D.C.   
28     85       18140             Toyota Center           Houston, Texas   
29    107       17732           Barclays Center       Brooklyn, New York   
30    126       19490  American Airlines Center            Dallas, Texas   
31    110       19060            Staples Center  Los Angeles, California   

    Capacity Yr Arena Opened   Season  H_Allstars  V_Allstars  V_wins  \
25     17923            1999  2012-13           1           0       0   
26     20917            1994  2012-13           2           0       1   
27     20356            1997  2012-13           0           2       0   
28     18055            2003  2012-13           1           1       1   
29     17732            2012  2012-13           1           0       0   
30     19200            2001  2012-13           0           0       1   
31     19060            1999  2012-13           2           1       1   

    V_losses  H_wins  H_losses  V_WPercent  H_WPercent  
25         2       1         1         0.0         0.5  
26         1       2         0         0.5         1.0  
27         2       0         1         0.0         0.0  
28         1       2         0         0.5         1.0  
29         1       0         0         0.0         0.0  
30         0       1         1         1.0         0.5  
31         1       2         0         0.5         1.0 

Я не пытаюсь сделать что-то слишком интенсивное, но я пытаюсь выяснить, что влияет / предсказывает посещаемость NBA для команд с достаточной степенью точности. Есть ли какие-то другие переменные предиктора, которые вы бы порекомендовали добавить? Как бы вы предложили изучить данные, чтобы понять, какого типа могут быть полезны пакеты ML? Мой самый первый личный проект, так что любые советы / примеры очень ценятся.

Обновление:

После некоторого быстрого изучения и просмотра некоторых пошаговых онлайн-руководств я наткнулся на эту матрицу корреляции по заполненному проценту мощности. Я могу ошибаться, но эти цифры кажутся низкими? Является ли каждая команда слишком специфичной, и мне, возможно, придется сосредоточиться на командах, которые не продаются последовательно, или есть какая-то переменная, о которой я должен подумать, в том числе, что может иметь какое-то отношение к прошлой истории посещаемости?

Correlation Matrix for Capacity Percentage

1 Ответ

0 голосов
/ 02 мая 2018

Несколько функций, которые я хотел бы добавить:

  1. Дом и Посетитель Superstars. Я знаю, что у вас есть все звезды, но суперзвезды немного другие. Пример: Леброн против Демар Дерозан. Они оба суперзвезды, но гораздо больше людей, вероятно, пойдут увидеть Леброна над Демаром. Однако было бы довольно сложно добавить все это, а также определить, кто является суперзвездой.

  2. Вы можете рассмотреть вопрос о соперничестве. Бостон против Лос-Анджелеса («Лейкерс») - это толпа аншлагов из-за истории команд.

  3. Количество владельцев абонементов может или не может влиять на количество. Мне было бы интересно узнать, имеет ли это какой-либо вес.

Некоторые из них не слишком важны. Я бы подумал избавиться от игрового счета, поскольку это происходит в конце игры, а посещаемость связана с продажей билетов (до начала игры). Похоже, у вас есть приличное количество данных для работы. Очевидно, это будет контролируемая модель. Похоже, что регрессия будет чем-то, что вы захотите использовать для своей модели.

...