Question

Допустим, у меня есть DataFrame вроде:

import pandas as pd

df = pd.DataFrame({"Quarter": [1,2,3,4,1,2,3,4,4], 
                   "Type": ["a","a","a","a","b","b","c","c","d"], 
                   "Value": [4,1,3,4,7,2,9,4,1]})

   Quarter Type  Value
0        1    a      4
1        2    a      1
2        3    a      3
3        4    a      4
4        1    b      7
5        2    b      2
6        3    c      9
7        4    c      4
8        4    d      1

Для каждого Type должно быть всего 4 строки, которые представляют один из четырех кварталов, как указано в столбце Quarter. Таким образом, это будет выглядеть следующим образом:

    Quarter Type  Value
0         1    a      4
1         2    a      1
2         3    a      3
3         4    a      4
4         1    b      7
5         2    b      2
6         3    b    NaN
7         4    b    NaN
8         1    c    NaN
9         2    c    NaN
10        3    c      9
11        4    c      4
12        1    d    NaN
13        2    d    NaN
14        3    d    NaN
15        4    d      1

Затем, где в столбце Value отсутствуют пропущенные значения, заполните пропущенные значения следующим ближайшим доступным значением с тем же Type (если это пропущенный последний квартал, затем заполните третий квартал):

    Quarter Type  Value
0         1    a      4
1         2    a      1
2         3    a      3
3         4    a      4
4         1    b      7
5         2    b      2
6         3    b      2
7         4    b      2
8         1    c      9
9         2    c      9
10        3    c      9
11        4    c      4
12        1    d      1
13        2    d      1
14        3    d      1
15        4    d      1

Какой лучший способ выполнить sh это?

Ben.T · Answer 1 · 17 апреля 2020

вы можете использовать set_index и unstack, чтобы создать нужные недостающие строки (при условии, что каждый квартал доступен как минимум в одном типе), затем ffill и bfill над столбцами и наконец stack и reset_index до go назад к исходной форме

df = df.set_index(['Type', 'Quarter']).unstack()\
       .ffill(axis=1).bfill(axis=1)\
       .stack().reset_index()

print (df)
   Type  Quarter  Value
0     a        1    4.0
1     a        2    1.0
2     a        3    3.0
3     a        4    4.0
4     b        1    7.0
5     b        2    2.0
6     b        3    2.0
7     b        4    2.0
8     c        1    9.0
9     c        2    9.0
10    c        3    9.0
11    c        4    4.0
12    d        1    1.0
13    d        2    1.0
14    d        3    1.0
15    d        4    1.0

Code Different · Answer 2 · 17 апреля 2020

Использование reindex:

idx = pd.MultiIndex.from_product([
    df['Type'].unique(),
    range(1,5)
], names=['Type', 'Quarter'])

df.set_index(['Type', 'Quarter']).reindex(idx) \
    .groupby('Type') \
    .transform(lambda v: v.ffill().bfill()) \
    .reset_index()

Добавить недостающие значения в Pandas групп

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Добавить недостающие значения в Pandas групп

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов