В настоящее время у меня есть кадр данных, который выглядит следующим образом:
account region measure value date
acct1 USA Expense 100 1/31/2019
acct1 USA Sales 150 1/31/2019
acct2 USA Expense 1000 1/31/2019
acct2 USA Sales 1500 1/31/2019
acct2 East Expense 500 1/31/2019
acct2 East Sales 800 1/31/2019
acct1 West Expense 90 1/31/2019
acct1 West Sales 140 1/31/2019
acct2 West Expense 450 1/31/2019
acct2 West Sales 500 1/31/2019
Существуют учетные записи и регионы, связанные с датами, мерами и значениями.
Даже если тег региона СШАВ общем, восточные и западные регионы не обязательно составляют общую сумму США.Моя цель состоит в том, чтобы изменить строки «США» на тег «Другие», который позволяет объединить теперь три региона с предыдущими числами «США».
Итак, это будет выглядеть следующим образом:
account region measure value date
acct1 Other Expense 10 1/31/2019
acct1 Other Sales 10 1/31/2019
acct2 Other Expense 50 1/31/2019
acct2 Other Sales 200 1/31/2019
acct2 East Expense 500 1/31/2019
acct2 East Sales 800 1/31/2019
acct1 West Expense 90 1/31/2019
acct1 West Sales 140 1/31/2019
acct2 West Expense 450 1/31/2019
acct2 West Sales 500 1/31/2019
Как видите, регионы "Восток" и "Запад" не изменились, и все три суммируют до итогов "США" ранее.
Я пробовал несколько различныхСпособ достижения этого безрезультатен.Сначала я попытался выделить три df для каждого региона:
df_usa = df[df['region'] == 'USA']
df_east = df[df['region'] == 'east']
df_west = df[df['region'] == 'west']
Затем создать «другое» df и вычесть на основе столбца:
df_usa['value'] = df_usa['value'] - df_east['value'] - df_west['value']
Это не работает, так как каждый регионУ df разное количество аккаунтов / строк.Мне также нужно будет учесть дополнительные даты в наборе данных.
Как я уверен, вы можете сказать, что я все еще новичок в вычислениях панд.