Пропорциональные / Процентные значения - PullRequest
2 голосов
/ 01 июля 2019

У меня есть этот фрейм данных:

o   d   r   kz  p
1   3   1   5   NaN
1   3   2   0   NaN
1   10  1   7   NaN
1   10  3   1   NaN
1   10  2   2   NaN

Я хотел бы заполнить столбец «p» пропорциями значений «kz» для каждой пары «o» и «d». Результат должен выглядеть примерно так:

o   d   r   kz  p
1   3   1   5   100%
1   3   2   0   0%
1   10  1   7   70%
1   10  3   1   10%
1   10  2   2   20%

Я думаю о циклическом просмотре фрейма данных и назначить список списков значений kz, а затем регрессивно заполнить столбец p.

Есть ли какой-нибудь элегантный способ сделать это, например, с groupby или Pivot таблицей?

Ответы [ 2 ]

1 голос
/ 01 июля 2019

Первый sum () Группа столбцов 'kz' по 'o' и 'd' и сохранить ее в 'tmp'.Объедините эти два фрейма данных.Затем вычислите процентное значение «p», используя исходное значение «kz» и суммарное значение «kz».Сбросьте сумму «kz» и переименуйте исходное имя столбца в «kz».

import pandas as pd
d = {'o' : pd.Series([1,1,1,1,1]),
      'd' : pd.Series([3,3,10,10,10]),
      'r' : pd.Series([1,2,1,3,2]),
      'kz' : pd.Series([5,0,7,1,2]),
      'p' : pd.Series(None)}

# creates Dataframe.
df = pd.DataFrame(d)

tmp=df.groupby(['o','d'])["kz"].sum()
merge_tmp=pd.merge(df, tmp, on=['o','d'], how='inner',suffixes=('_org','_tmp'))
merge_tmp['p'] = ((merge_tmp['kz_org']/merge_tmp['kz_tmp'])*100)

merge_tmp = merge_tmp.drop('kz_tmp', axis='columns')
merge_tmp = merge_tmp.rename({'kz_org': 'kz'}, axis='columns')
print(merge_tmp)
1 голос
/ 01 июля 2019

Вы можете сделать это в несколько шагов:

Здесь код:

# Import modules
import pandas as pd
import numpy as np

# Data
df = pd.DataFrame(
    [[1,   3,  1,   5,   np.NaN],
     [1,  3,  2,   0,   np.NaN],
     [1,  10,  1,   7,   np.NaN],
     [1,  10,  3,  1,   np.NaN],
     [1,  10,  2,   2,   np.NaN]],
    columns=["o", "d", "r", "kz", "p"])
print(df)
#    o   d  r  kz   p
# 0  1   3  1   5 NaN
# 1  1   3  2   0 NaN
# 2  1  10  1   7 NaN
# 3  1  10  3   1 NaN
# 4  1  10  2   2 NaN

# Compute the sum per group
sum_ = df.groupby(['o', 'd']).agg({'kz': 'sum'})
sum_.reset_index(inplace=True)
print(sum_)
#    o   d  kz
# 0  1   3   5
# 1  1  10  10

# Merge these values with the current dataframe
df = df.merge(sum_, on=['o', 'd'], how="outer", suffixes=('', '_sum'))
print(df)
#    o   d  r  kz   p  kz_sum
# 0  1   3  1   5 NaN       5
# 1  1   3  2   0 NaN       5
# 2  1  10  1   7 NaN      10
# 3  1  10  3   1 NaN      10
# 4  1  10  2   2 NaN      10

# Compute teh ratio
df.p = df.kz / df.kz_sum * 100
print(df)
#    o   d  r  kz      p  kz_sum
# 0  1   3  1   5  100.0       5
# 1  1   3  2   0    0.0       5
# 2  1  10  1   7   70.0      10
# 3  1  10  3   1   10.0      10
# 4  1  10  2   2   20.0      10
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...