Question

У меня есть фрейм данных, который выглядит следующим образом, с MultiIndex более ('timestamp', 'id'):

                 value
timestamp   id
2020-03-03  A    100
2020-03-03  B    222
2020-03-03  C    5000
2020-03-04  A    NaN
2020-03-04  B    1
2020-03-04  C    NaN
2020-03-05  A    200
2020-03-05  B    NaN
2020-03-05  C    NaN
2020-03-06  A    NaN
2020-03-06  B    20
2020-03-06  C    NaN

Я хочу заполнить (по часовой стрелке) на value, чтобы фрейм данных заполнялся наибольшим количеством недавно доступный элемент данных, т.е. DataFrame становится:

                 value
timestamp   id
2020-03-03  A    100
2020-03-03  B    222
2020-03-03  C    5000
2020-03-04  A    100
2020-03-04  B    1
2020-03-04  C    5000
2020-03-05  A    200
2020-03-05  B    1
2020-03-05  C    5000
2020-03-06  A    200
2020-03-06  B    20
2020-03-06  C    5000

Есть ли какой-нибудь простой способ использования ресэмплера?

anky_91 · Answer 1 · 07 марта 2020

Вы можете отсортировать второй уровень и заполнить, а затем переиндексировать как оригинал:

df.sort_index(level=1).ffill().reindex(df.index)

                value
timestamp  id        
2020-03-03 A    100.0
           B    222.0
           C   5000.0
2020-03-04 A    100.0
           B      1.0
           C   5000.0
2020-03-05 A    200.0
           B      1.0
           C   5000.0
2020-03-06 A    200.0
           B     20.0
           C   5000.0

Attack68 · Answer 2 · 08 марта 2020

Вы также можете использовать stack, чтобы упорядочить данные в правильном двумерном представлении для заполнения (по столбцам), а затем откатить обратно в исходный формат. Это обрабатывает столбцы (то есть индексы) отдельно, а не пролонгирует значения данных, как в случае другого решения.

a = ['2020-03-03','2020-03-04','2020-03-05', '2020-03-06']
b = ['A', 'B', 'C']
c = ['value1', 'value2']
df = pd.DataFrame(data=None, index=pd.MultiIndex.from_product([a,b]), columns=c)
df.loc[('2020-03-03', slice(None)), 'value1'] = np.array([100, 222, 5000])
df.loc[('2020-03-04', 'B'), 'value1'] = 1.0
df.loc[('2020-03-05', 'A'), 'value1'] = 200.0
df.loc[('2020-03-06', 'C'), 'value1'] = 20
df['value2'] = df['value1']
df.loc[('2020-03-03', 'C'), 'value2'] = np.nan
df

                 value1  value2
timestamp   id
2020-03-03  A    100     100
2020-03-03  B    222     222
2020-03-03  C    5000    NaN   # <- OBS!
2020-03-04  A    NaN     NaN
2020-03-04  B    1       1
2020-03-04  C    NaN     NaN
2020-03-05  A    200     200
2020-03-05  B    NaN     NaN
2020-03-05  C    NaN     NaN
2020-03-06  A    NaN     NaN
2020-03-06  B    20      20
2020-03-06  C    NaN     NaN

Использование df.unstack().fillna(method='ffill') дает

            value1             value2
            A     B     C      A     B     C
timestamp
2020-03-03  100   222  5000    100   222   NaN
2020-03-04  100   1    5000    100   1     NaN
2020-03-05  200   1    5000    200   1     NaN
2020-03-06  200   1    20      200   1     20

Это может быть возвращен с помощью .stack() к исходному формату снова.

Сравнивая это с df.sort_index(level=1).ffill().reindex(df.index), разница в последнем столбце, где начиная с 'C', начиная с NaN значение из 'B '1 превращается в начало' C 'для' Value2 '.

Могу ли я сделать повторную выборку (ffill) pandas DataFrame с MultiIndex

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Могу ли я сделать повторную выборку (ffill) pandas DataFrame с MultiIndex

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов