Подсчет количества элементов, активных в каждом месяце, рассчитанный по датам начала и окончания каждого элемента в кадре данных Pandas - PullRequest
0 голосов
/ 03 июня 2018

Предположим, у нас есть следующее DataFrame, которое детализирует ошибки в системе отслеживания ошибок:

import pandas as pd

bugs = pd.DataFrame([
    {'key': 'ABC-1', 'priority': 'high', 'start': pd.Timestamp(2018, 1, 1), 'end': pd.Timestamp(2018,3,20)},
    {'key': 'ABC-2', 'priority': 'med',  'start': pd.Timestamp(2018, 1, 2), 'end': pd.Timestamp(2018,1,20)},
    {'key': 'ABC-3', 'priority': 'high', 'start': pd.Timestamp(2018, 2, 3), 'end': pd.Timestamp(2018,3,20)},
    {'key': 'ABC-4', 'priority': 'med',  'start': pd.Timestamp(2018, 1, 4), 'end': pd.Timestamp(2018,3,20)},
    {'key': 'ABC-5', 'priority': 'high', 'start': pd.Timestamp(2018, 2, 5), 'end': pd.Timestamp(2018,2,20)},
    {'key': 'ABC-6', 'priority': 'med',  'start': pd.Timestamp(2018, 3, 6), 'end': pd.Timestamp(2018,3,20)}
], columns=['key', 'priority', 'start', 'end'])

Здесь start и end представляют дату, когда ошибка была впервые обнаружена, идата его закрытия.

Как рассчитать количество «открытых» ошибок по месяцам с разбивкой по приоритетам?То есть вывод, который выглядит следующим образом:

           High   Med
Month
January       1   2
February      3   1
March         2   2

Задача состоит в том, чтобы принять во внимание даты начала и окончания.Таким образом, ошибка с приоритетом «high», которая была открыта 5 января и закрыта 3 февраля, должна учитываться как ошибка «high» с приоритетом за январь и февраль, но не за март.И так далее.

Ответы [ 4 ]

0 голосов
/ 03 июня 2018

На основании этого ответа Мне удалось сделать следующую работу:

def strip_day(timestamp):
    return pd.Timestamp(timestamp.year, timestamp.month, 1)

monthly_bugs = pd.concat([
    pd.DataFrame(index=pd.date_range(strip_day(b.start), strip_day(b.end), freq='MS'), data=[[b.key]], columns=[b.priority])
    for b in bugs.itertuples()
]).resample('MS').count()

Я не уверен, что это лучше, чем некоторые другие ответы, опубликованные здесь, хотя (спасибо!).

0 голосов
/ 03 июня 2018

Простой и короткий:)
Идея состоит в том, чтобы выбирать в месяц строки, чьи ошибки перекрываются каждый месяц.

months = ['January', 'February', 'March', 
          'April']  # of course  you can complete this list

bugs[months] = pd.concat([((bugs['start'].dt.month <= i) & 
                           (i <= bugs['end'].dt.month)).astype(int) 
                          for i in range(1, len(months) + 1)], axis=1)

bugs.groupby('priority')[months].sum()

Результат:

          January  February  March  April
priority                                 
high            1         3      2      0
med             2         1      2      0
0 голосов
/ 03 июня 2018
from pandas.tseries.offsets import MonthEnd

# Last day of the previous month
bugs['start1'] = bugs.start + MonthEnd(-1)

# The first days of the months that > start1 and <= end
bugs['months']  = bugs[['start1', 'end']].apply(lambda x: tuple(pd.date_range(x[0], x[1], freq='MS')), axis=1, raw=True)

# Create dummy columns
dummies = bugs.months.apply(lambda x: pd.Series({k:1 for k in x})).fillna(0)
bugs = bugs.join(dummies)

# Aggregation
bugs.groupby('priority')[dummies.columns].sum().T


priority    high  med
2018-01-01   1.0  2.0
2018-02-01   3.0  1.0
2018-03-01   2.0  2.0
0 голосов
/ 03 июня 2018

Я использую stack с resample

from pandas.tseries.offsets import MonthEnd

s=bugs.set_index(['key','priority']).stack() # faltten your dataframe , make start and end in the same row , since we do need a range of date
s=pd.to_datetime(s)+MonthEnd(1) # change the date to same scale , month end , since you need monthly data only 
s=s.reset_index().drop_duplicates(['key',0]) # if the start is same with end , we only need keep one of them. 

s=s.groupby('key').apply(lambda x : x.set_index(0).resample('M').ffill()).reset_index(level=1)    # groupby the key then we resample , adding the value between the start and end prepare for the frequency count  

pd.crosstab(s[0].dt.month,s['priority'])# count the frequency 
Out[149]: 
priority  high  med
0                  
1            1    2
2            3    1
3            2    2
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...