Получить предыдущий рабочий день в DataFrame - PullRequest
0 голосов
/ 10 октября 2018

У меня есть DataFrame с двумя столбцами, датой и категорией.Я хочу создать новый столбец даты в соответствии с правилом: если категория B, то значение должно быть ближе к дате, чем рабочий день (только из прошлого или самого дня), иначе это значение самого столбца даты.

Я определяю рабочий день как любой день, который не относится к выходным, или отсутствует в списке holidays, определенном в минимальном примере ниже.

Пожалуйста, рассмотрите следующий фрейм данных df:

import datetime as dt
import pandas as pd
from IPython.display import display

holidays = [dt.datetime(2018, 10, 11)]
df = pd.DataFrame({"day": ["2018-10-10", "2018-10-11", "2018-10-12",
                       "2018-10-13", "2018-10-14", "2018-10-15"
                      ],
               "category":["A", "B", "C", "B", "C", "A"]
              }
)

df["day"] = pd.to_datetime(df.day, format="%Y-%m-%d")
display(df)

         day category
0 2018-10-10        A
1 2018-10-11        B
2 2018-10-12        C
3 2018-10-13        B
4 2018-10-14        C
5 2018-10-15        A

Как получить третий столбец, значения которого перечислены ниже?

2018-10-10
2018-10-10
2018-10-12
2018-10-12
2018-10-14
2018-10-15

У меня естьa создал функцию, которая находит последний рабочий день при работе со списками, если это поможет.

# creates a list whose elements are all days in the years 2017, 2018 and 2019
days = [dt.datetime(2017, 1 , 1) + dt.timedelta(k) for k in range(365*3)]


def lastt_bus_day(date):
    return max(
        [d for d in days if d.weekday() not in [5, 6]
                            and d not in holidays
                            and d <= date
        ]
    )

for d in df.day:
    print(last_bus_day(d))
#prints
2018-10-10 00:00:00
2018-10-10 00:00:00
2018-10-12 00:00:00
2018-10-12 00:00:00
2018-10-12 00:00:00
2018-10-15 00:00:00

Ответы [ 5 ]

0 голосов
/ 10 октября 2018

Pandas поддерживает предоставление ваших собственных выходных дней через Настраиваемые рабочие дни .

Преимущество этого решения в том, что оно поддерживает смежные выходные без проблем;например, День подарков и Рождество в некоторых регионах.

# define custom business days
weekmask = 'Mon Tue Wed Thu Fri'
holidays = ['2018-10-11']

bday = pd.tseries.offsets.CustomBusinessDay(holidays=holidays, weekmask=weekmask)

# construct mask to identify when days must be sutracted
m1 = df['category'] == 'B'
m2 = df['day'].dt.weekday.isin([5, 6]) | df['day'].isin(holidays)

# apply conditional logic
df['day'] = np.where(m1 & m2, df['day'] - bday, df['day'])

print(df)

  category        day
0        A 2018-10-10
1        B 2018-10-10
2        C 2018-10-12
3        B 2018-10-12
4        C 2018-10-14
5        A 2018-10-15

Редактировать: На основании вашего комментария: «Я только что понял, что не спросил, что именно хотел.хотите найти предыдущий рабочий день ", вы можете просто использовать:

df['day'] -= bday
0 голосов
/ 10 октября 2018

Вы можете сделать это, просто подсчитав рабочие дни и выбрав ближайший к нему в зависимости от вашей категории.

df['day2'] = df.day
bd = pd.date_range(min(df.day), max(df.day), freq='b')
bd = bd[~bd.isin(holidays)]
df.loc[df.category=='B', 'day2'] = df.loc[df.category=='B', 'day'].apply(lambda x: bd[bd.searchsorted(x)-1])

Вывод

    category    day day2
0   A   2018-10-10  2018-10-10
1   B   2018-10-11  2018-10-10
2   C   2018-10-12  2018-10-12
3   B   2018-10-13  2018-10-12
4   C   2018-10-14  2018-10-14
5   A   2018-10-15  2018-10-15
0 голосов
/ 10 октября 2018

Используя pandas BDay

df.day.update(df.loc[(df.category=='B')&((df.day.dt.weekday.isin([5,6])|(df.day.isin(holidays )))),'day']-pd.tseries.offsets.BDay(1))
df
Out[22]: 
  category        day
0        A 2018-10-10
1        B 2018-10-10
2        C 2018-10-12
3        B 2018-10-12
4        C 2018-10-14
5        A 2018-10-15
0 голосов
/ 10 октября 2018

Вы можете использовать pd.merge_asof в подмножестве, где category == 'B' со всеми нерабочими рабочими днями, и назначить дату для всех других категорий.Установите allow_exact_matches=False, чтобы не совпадать с тем же днем ​​для B.

import pandas as pd

mask = df.category == 'B'

# DataFrame of all non-holiday days
df_days = pd.DataFrame(days, columns=['day'])
df_days = df_days.loc[(df_days.day.dt.weekday<5) & ~df_days.day.isin(holidays)]

dfb = pd.merge_asof(
        df.loc[mask], 
        df_days.assign(new_day=df_days.day), 
        on='day', 
        direction='backward',
        allow_exact_matches=False)

dfnb = df.assign(new_day = df.day)[~mask]

pd.concat([dfnb, dfb], ignore_index=True).sort_values('day')

Вывод:

         day category    new_day
0 2018-10-10        A 2018-10-10
4 2018-10-11        B 2018-10-10
1 2018-10-12        C 2018-10-12
5 2018-10-13        B 2018-10-12
2 2018-10-14        C 2018-10-14
3 2018-10-15        A 2018-10-15
0 голосов
/ 10 октября 2018

Вы уже достаточно близки:

holidays = [dt.date(2018, 10, 11)]
days = [dt.date(2017, 1 , 1) + dt.timedelta(k) for k in range(365*3)]
def lastt_bus_day(date, format='%Y-%m-%d'):
    if not isinstance(date, dt.date):
        date = dt.datetime.strptime(date, format).date()
    return max(
        [d for d in days if d.weekday() not in [5, 6]
                            and d not in holidays
                            and d <= date
        ]
    )

Тогда просто примените это к фрейму данных:

df['business_day'] = df['day']
df['business_day'].loc[df['category'] == 'B'] = df.loc[df['category'] == 'B', 'day'].apply(lastt_bus_day)
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...