как группировать по разным столбцам - PullRequest
1 голос
/ 28 марта 2019

Я пытаюсь сгруппировать по разным столбцам в зависимости от года, подать заявку на тот же год и, наконец, сохранить результат в файле .csv.

Мои данные и код:

 ISO3  Income_Cat_1980  Income_Cat_1985   DWWC1980 DWWC1985 
 AFG       L                 LM              5        10
 AGO       LM                H               15       25
 ALB       LM                UM              30       40
 ARE       H                 H               40       50 

for i in range (1980,1990,5):
    df=pd.DataFrame(pd.read_csv("mydata.csv"))
    df=df.groupby("Income_Cat_"+str(i)).sum()
    print df
    df.to_csv('country-surplus'+str(i)+'.csv',index="Income_Cat_"+str(i))

Результат моего кода:

Income_Cat_1980          DWWC1980   DWWC1985
     H                       40        50
     L                        5        10
     LM                      45        65

Income_Cat_1985           DWWC1980    DWWC1985
     H                       55        75
     LM                       5        10
     UM                      30        40

и сохраните вывод в другом файле .csv, но мне нужнорассчитать сумму DWWC1980 и DWWC1985 на основе того же года Income_Cat, поэтому результат должен быть:

Income_Cat   DWWC1980 DWWC1985  
    H            40       75
    L            5        0
    LM           45       10
    UM           0        40

и сохранить выходные данные в одном файле .csv.

Ответы [ 3 ]

1 голос
/ 28 марта 2019

Это должно дать желаемый результат, если я понял вопрос

init = True
for i in range(1980,1990,5):

    _df = df[["Income_Cat_"+str(i), 'DWWC'+str(i)]]
    _df=_df.groupby("Income_Cat_"+str(i)).sum()

    if init:
        out = _df
        init=False
    else:
        out = out.merge(_df, how='outer', left_index=True, right_index=True)

out.fillna(0, inplace=True)
out.index.rename('Income_cat', inplace=True)

Вы можете сделать это немного более полным, заменив первую строку внутри цикла на:

_df = df[[a for a in df.columns if str(i) in a]]
1 голос
/ 28 марта 2019

Думаю, вам это нужно.

Ввод:

df

    ISO3    Income_Cat_1980     Income_Cat_1985     DWWC1980    DWWC1985
0   AFG     L                   LM                  5           10
1   AGO     LM                  H                   15          25
2   ALB     LM                  UM                  30          40
3   ARE     H                   H                   40          50

Используйте следующий код

pd.concat([df.groupby('Income_Cat_' + str(year)).sum()['DWWC' + str(year)] 
           for year in range(1980,1986) if 'Income_Cat_' + str(year) in            
           df.columns],1).fillna(0).astype(int)

Вывод

    DWWC1980    DWWC1985
H   40          75
L   5           0
LM  45          10
UM  0           40

Объяснение:

pd.concat([list of series],1) объединяет pd.Series вдоль индексов.Если один pd.Series (с именем столбца series1 не имеет индекса i другого, ячейка в результирующем кадре данных получает значение NaN, поэтому:

print(df.loc[i, series1])

приводит к NaNПоэтому мы используем fillna(0), чтобы заполнить NaN s нулями. Приведение к целым числам - это последний шаг к достижению желаемого кадра данных

1 голос
/ 28 марта 2019

Код должен выглядеть следующим образом:

#You should only be loading the data once
df=pd.DataFrame(pd.read_csv("mydata.csv"))

dfl = []
for i in range (1980,1990,5):
    temp = df.groupby("Income_Cat_"+str(i))[['DWWC' + str(i)]].sum()
    temp.index.rename('Income_Cat', inplace=True)
    dfl.append(temp)

out = pd.concat(dfl, sort=False).fillna(0)).groupby('Income_Cat').sum()

out.to_csv('country-surplus'+str(i)+'.csv',index="Income_Cat')

Результат не совсем такой, как вы описали, потому что его индекс включает все 6 категорий доходов.Я не понимаю, почему вам нужно только 4 из них, но я надеюсь, что фрагмент полезен.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...