Python - Корреляционный тест с Numpy - PullRequest
0 голосов
/ 18 декабря 2018

Я пытаюсь проанализировать данные Кубка мира, я хочу сделать корреляцию между временем начала игр и забитыми мячами.Я надеюсь, что это показывает, что время может привести к большему количеству целей.

Мой набор данных находится в файле CSV и содержит следующие заголовки и 1 строку данных в качестве примера:

enter image description here

Я пытаюсь написать корреляционный тест на python, но у меня возникли некоторые проблемы с ним.

Мой вопрос: как мне доказать / опровергнуть корреляцию между временамиматчей сыграно и количество забитых голов?

import pandas as pd
from scipy import stats
import numpy as np

#Read the data into a dataframe
df = pd.read_csv("World Cup 2018.csv")

index2 = df.loc[df['start_time']]
print(index2['home_score'])

Test = numpy.corrcoef(index2.start_time, index2.home_score)[0, 1]
print(Test)

1 Ответ

0 голосов
/ 18 декабря 2018

Вы пробовали использовать функцию корреляции Pandas?

df.corr()[['start_time']].sort_values('start_time')

Она даст вам набор значений для каждого столбца во фрейме данных и насколько он соотносится с start_time: home_team -0.123456 away_team -0.789012 home_score -0.890123 away_score -0.901234 Чем выше оценка, тем больше эти два значения кажутся коррелированными.Хотя это не жесткое и быстрое правило, корреляция, превышающая +0,8, является сильным отношением

...