Я бывший опытный пользователь Excel, раскаивающийся в своих грехах. Мне нужна помощь, чтобы воссоздать общий расчет для меня.
Я пытаюсь рассчитать эффективность кредитного портфеля. В числителе я рассчитываю совокупную сумму потерь. В знаменателе мне нужно первоначальное сальдо ссуд, включенных в совокупную сумму.
Я не могу понять, как создать условную групповую игру в Пандах для достижения этой цели. Это очень просто в Excel, поэтому я надеюсь, что я переосмысливаю это.
Я не смог найти много вопросов по StackOverflow, но это было ближе всего: условная кумулятивная сумма Python Pandas
Я не могу понять, что мои условия основаны на значениях в индексе и содержатся в столбцах
Ниже приведены мои данные:
| Loan | Origination | Balance | NCO Date | NCO | As of Date | Age (Months) | NCO Age (Months) |
|---------|-------------|---------|-----------|-----|------------|--------------|------------------|
| Loan 1 | 1/31/2011 | 1000 | 1/31/2018 | 25 | 5/31/2019 | 100 | 84 |
| Loan 2 | 3/31/2011 | 2500 | | 0 | 5/31/2019 | 98 | |
| Loan 3 | 5/31/2011 | 3000 | 1/31/2019 | 15 | 5/31/2019 | 96 | 92 |
| Loan 4 | 7/31/2011 | 2500 | | 0 | 5/31/2019 | 94 | |
| Loan 5 | 9/30/2011 | 1500 | 3/31/2019 | 35 | 5/31/2019 | 92 | 90 |
| Loan 6 | 11/30/2011 | 2500 | | 0 | 5/31/2019 | 90 | |
| Loan 7 | 1/31/2012 | 1000 | 5/31/2019 | 5 | 5/31/2019 | 88 | 88 |
| Loan 8 | 3/31/2012 | 2500 | | 0 | 5/31/2019 | 86 | |
| Loan 9 | 5/31/2012 | 1000 | | 0 | 5/31/2019 | 84 | |
| Loan 10 | 7/31/2012 | 1250 | | 0 | 5/31/2019 | 82 | |
В Excel я бы вычислил эту сумму, используя следующие формулы:
Непогашенная линия баланса: =SUMIFS(Balance,Age (Months),Reference Age)
Cumulative NCO: =SUMIFS(NCO,Age (Months),>=Reference Age,NCO Age (Months),<=&Reference Age)
Данные:
| Reference Age | 85 | 90 | 95 | 100
|---------------------|-------|-------|------|------
| Outstanding Balance | 16500 | 13000 | 6500 | 1000
| Cumulative NCO | 25 | 60 | 40 | 25
Цель здесь состоит в том, чтобы включить в выдающийся баланс вещи, которые достаточно взрослые, чтобы иметь возможность наблюдать за НКО. А НКО - это общая сумма, которая произошла до этого момента для этих непогашенных кредитов.
EDIT:
Я получил расчет таким образом. Но является ли это наиболее эффективным?
age_bins = list(np.arange(85, 101, 5))
final_df = pd.DataFrame()
df.fillna(value=0, inplace=True)
df["NCO Age (Months)"] = df["NCO Age (Months)"].astype(int)
for x in age_bins:
age = x
nco = df.loc[(df["Age (Months)"] >= x) & (df["NCO Age (Months)"] <= x), "NCO"].sum()
bal = df.loc[(df["Age (Months)"] >= x), "Balance"].sum()
temp_df = pd.DataFrame(
data=[[age, nco, bal]],
columns=["Age", "Cumulative NCO", "Outstanding Balance"],
index=[age],
)
final_df = final_df.append(temp_df, sort=True)