Соответствие ближайшей даты из того же фрейма данных - PullRequest
0 голосов
/ 10 ноября 2019

Я работаю с данными о посещаемости матчей высшей лиги по бейсболу.

Я пытаюсь создать новый столбец в моем фрейме данных, который возвращает ближайшую дату (но не может бытьпосле указанной даты) игры указанной команды соперника.

Например, для строки, содержащей данные об игре Los Angeles Angels:

Game_Num      Date         Team        Win      Attendance      Net Wins
23            2010-04-05   LAA         1        43504           12

Я хотел бы найтиближайшую предыдущую дату для игры Los Angeles Dodgers ('LAD') и добавьте ее в новую колонку. Моя конечная цель - создать еще один столбец, в котором показано, какой чистый выигрыш соперничающей команды входит в игру, чтобы я мог видеть, удачно ли у другой команды сезон, если это повлияет на продажи билетов. Это то, что я пробовал до сих пор:

for index, row in bbattend.iterrows():
    if row['Team'] == 'LAA':
        basedate = row['Date']
        tempdf = bbattend.loc[(bbattend['Team'] == 'LAD') & (bbattend['Date'] < basedate)]
        tempdf['Datediff'] = abs(basedate-tempdf['Date']).days
        mindiff = tempdf['Datediff'].min()
        bbattend['CloseRivalDate'] = tempdf[tempdf['Date']==mindiff]['Date']
        bbattend['RivalNetWins'] = tempdf[tempdf['Date']==mindiff]['Net_Wins']
        bbattend['RivalWinPer'] = tempdf[tempdf['Date']==mindiff]['Win_Per'] 

Это ошибка, которую я получаю от нее:

---------------------------------------------------------------------------
AttributeError                            Traceback (most recent call last)
<ipython-input-128-f2be88528772> in <module>
      3         basedate = row['Date']
      4         tempdf = bbattend.loc[(bbattend['Team'] == 'LAD') & (bbattend['Date'] < basedate)]
----> 5         tempdf['Datediff'] = abs(basedate-tempdf['Date']).days
      6         mindiff = tempdf['Datediff'].min()
      7         bbattend['CloseRivalDate'] = tempdf[tempdf['Date']==mindiff]['Date']

~/anaconda3/lib/python3.7/site-packages/pandas/core/generic.py in __getattr__(self, name)
   5065             if self._info_axis._can_hold_identifiers_and_holds_name(name):
   5066                 return self[name]
-> 5067             return object.__getattribute__(self, name)
   5068 
   5069     def __setattr__(self, name, value):

AttributeError: 'Series' object has no attribute 'days'

Вот мой код для моего фрейма данных на случай, если он вообще поможет:

import requests
import pandas as pd
import numpy as np
from datetime import datetime
import re

Teams = ['LAA', 'LAD', 'NYY', 'NYM', 'CHC', 'CHW', 'OAK', 'SFG']
Years = []
for year in range(2010,2020):
    Years.append(str(year))

list_of_df = list()

for team in Teams:
    for year in Years:
        url = 'https://www.baseball-reference.com/teams/' + team + '/' + year +'-schedule-scores.shtml'
        dfname = team + '_' + year
        html = requests.get(url).content
        df_list = pd.read_html(html)
        df = df_list[-1]

        #Formatting data table
        df.rename(columns={"Gm#": "GM_Num", "Unnamed: 4": "Home", "Tm": "Team", "D/N": "Night"}, inplace = True)
        df['Home'] = df['Home'].apply(lambda x: 0 if x == '@' else 1)
        df['Game_Win'] = df['W/L'].astype(str).str[0]
        df['Game_Win'] = df['Game_Win'].apply(lambda x: 0 if x == 'L' else 1)
        df['Night'] = df['Night'].apply(lambda x: 1 if x == 'N' else 0)
        df['Streak'] = df['Streak'].apply(lambda x: -1*len(x) if '-' in x else len(x))
        df.drop('Unnamed: 2', axis=1, inplace = True)
        df.drop('Orig. Scheduled', axis=1, inplace = True)
        df.drop('Win', axis=1, inplace = True)
        df.drop('Loss', axis=1, inplace = True)
        df.drop('Save', axis=1, inplace = True)
        #Drop rows that do not have data
        df = df[df['GM_Num'].str.isdigit()]
        WL = df["W-L"].str.split("-", n = 1, expand = True)
        df["Wins"] = WL[0].astype(dtype=np.int64)
        df["Losses"] = WL[1].astype(dtype=np.int64)
        df['Net_Wins'] = df['Wins'] - df['Losses']
        df['Win_Per'] = df['Wins']/(df['Wins']+df['Losses'])
        DayDate = df['Date'].str.split(", ", n = 1, expand = True)
        df['DayOfWeek'] = DayDate[0]
        df['Date'] = DayDate[1] + ', ' + year
        df['Date'] = [re.sub("\s\(\d+\)", "", str(x)) for x in df['Date']]
        df['Date'] = pd.to_datetime(df['Date'], format='%b %d, %Y')
        list_of_df.append(df)

bbattend = pd.concat(list_of_df)
bbattend 

Я знаю, что это определенно не самый эффективный способ сделать это, но он получаетрезультат, который я хочу.

Ответы [ 2 ]

0 голосов
/ 10 ноября 2019

Это последний код, который я в конечном итоге использовал: он основан на ответе @ foglerit

#Create game_id which will be used to delete duplicates later
bbattend['game_id'] = bbattend['Team'] + bbattend['Date'].astype(str)
#Create year variable for matching
bbattend['Year'] = bbattend.Date.dt.year

# Create merged table
# Will match all dates of games of team with dates within same year of teams from same-market team 
merged = bbattend.merge(
    bbattend[["Date", "Year", "Team", "Net_Wins", "Win_Per"]],
    how="inner",
    left_on=["Year", "Same_Mkt_Team"],
    right_on=["Year", "Team"],
    suffixes=('', '_Same_Mkt_Team')
)

merged["date_diff"] = (merged.Date - merged.Date_Same_Mkt_Team).dt.days
#Only keep the dates of same-market team that occurred before the date of home team's game
merged = merged[merged['date_diff'] > 0]

#Sort by date_diff so closest dates appear first
merged.sort_values(by='date_diff', inplace = True)

#Only keep first game_id which will include the data of the same-market team for the closest date before the game
merged.drop_duplicates(subset =['game_id'], keep = 'first', inplace = True)

merged

Я добавил условие, что date_diff должен быть положительным, потому что я хотел, чтобы даты игр были одинаковыми. рыночная команда, появившаяся перед игрой.

Затем я отсортировал фрейм данных по date_diff и удалил дубликаты game_id, чтобы в итоговом фрейме был только минимальный date_diff.

0 голосов
/ 10 ноября 2019

Конкретную ошибку, которую вы видите, можно исправить, заменив строку

tempdf['Datediff'] = abs(basedate-tempdf['Date']).days

на

tempdf['Datediff'] = abs(basedate-tempdf['Date']).dt.days

Однако ваш код все равно будет давать неверные результаты.

На мой взгляд, правильный способ сделать то, что вы хотите, это выполнить самостоятельное соединение на вашем столе, в котором вы объединяете Team и Opp, а затем рассчитывает разницу в датах между датой игры Команды и каждой игрой Оппа. в этом сезоне отфильтруйте игры Оппа, которые происходят до игры Команды, и, наконец, оставьте только игру Оппа, ближайшую к игре Команды.

Вот код, который делает это:

# Create column Year to help on self-join
bbattend["Year"] = bbattend.Date.dt.year

# Create merged table
merged = bbattend.merge(
    bbattend[["Date", "Year", "Team", "Net_Wins", "Win_Per"]],
    how="inner",
    left_on=["Year", "Opp"],
    right_on=["Year", "Team"],
    suffixes=('', '_opp')
)
merged["date_diff"] = (merged.Date - merged.Date_opp).dt.days

# Keep only closest game from Opp
def get_closest_date(g):
    row_to_keep = g.date_diff.idxmin()
    return g.loc[row_to_keep, ["Date_opp", "Team_opp", "Net_Wins_opp", "Win_Per_opp", "date_diff"]]

merged.groupby(bbattend.columns.to_list()).apply(get_closest_date).reset_index()

В полученную таблицу будут добавлены столбцы с Net_wins и Win_per команды Opp после их предыдущей игры.

Примечания:

  • Из-за используемого внутреннего объединения в таблицу будут включены только игры, для которых и команда, и команда Opp находятся в столбце Team вашей исходной таблицы.
  • Полученная таблицаимеет пары симметричных рядов, где переключатели Team и Opp. Если вы хотите избавиться от них, просто отфильтруйте Home == 1

Наконец, это действительно расширяет границы того, что я бы сделал в пандах. Если ваши таблицы станут больше, для самостоятельного объединения потребуется квадратично больше памяти. Я предлагаю вам загрузить эту таблицу в реляционную базу данных (sqlite было бы проще всего использовать, поскольку она поставляется с Python), и выполнить это вычисление с использованием SQL.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...