наиболее эффективный способ обновления пандас-фрейма данных, когда индекс не совпадает - PullRequest
3 голосов
/ 11 апреля 2019

У меня есть две панды DataFrames, и я хочу обновить одну с другой ... Но я не могу быть уверен, что индексы совпадают. (поэтому проблема заключается в использовании DataFrame.update !)

exmaple:

import pandas as pd
df1 = pd.DataFrame([('path1', 0, 0, 0),
                    ('path2', 0, 0, 0),
                    ('path3', 0, 0, 0),
                    ('path4', 0, 0, 0),],
                  columns=['path', 'class', 'manual', 'conf'],
                  index = [1,2,3,4])

df2 = pd.DataFrame([('path1', 1, 0, 0),
                    ('path2', 0, 1, 0),
                    ('path3', 0, 0, 1),
                    ('path5', 1, 1, 0),
                    ('path6', 1, 1, 0),],
                  columns=['path', 'class', 'manual', 'conf'],
                  index = [10,11,12,13,14])

Желаемый результат:

update_annotations(df1, df2)

    path  class  manual  conf
1  path1      1       0     0
2  path2      0       1     0
3  path3      0       0     1
4  path4      0       0     0

df1.update (df2) может быть опасным, так как индексы этих фреймов данных могут не совпадать. Какой самый безопасный и эффективный способ сделать это?

Ответы [ 2 ]

4 голосов
/ 11 апреля 2019

Быстро и грязно

df1[['path']].merge(df2, 'left')

    path  class  manual  conf
0  path1    1.0     0.0   0.0
1  path2    0.0     1.0   0.0
2  path3    0.0     0.0   1.0
3  path4    NaN     NaN   NaN

Менее быстро и менее грязно

df1[['path']].merge(df2, 'left').fillna(0).astype(df1.dtypes)

    path  class  manual  conf
0  path1      1       0     0
1  path2      0       1     0
2  path3      0       0     1
3  path4      0       0     0

Pedantic

Заполнение NaN с помощью df1

df1[['path']].merge(df2, 'left').fillna({**df1}).astype(df1.dtypes)

    path  class  manual  conf
0  path1      1       0     0
1  path2      0       1     0
2  path3      0       0     1
3  path4      0       0     0

За Крис

df1.set_index('path').assign(**df2.set_index('path')).reset_index()

    path  class  manual  conf
0  path1    1.0     0.0   0.0
1  path2    0.0     1.0   0.0
2  path3    0.0     0.0   1.0
3  path4    NaN     NaN   NaN

Сохранить индекс

Поскольку порядок гарантированно будет таким же, мы можемпросто используйте set_index

df1[['path']].merge(df2, 'left').fillna({**df1}).astype(df1.dtypes).set_index(df1.index)

    path  class  manual  conf
1  path1      1       0     0
2  path2      0       1     0
3  path3      0       0     1
4  path4      0       0     0
1 голос
/ 11 апреля 2019

Основываясь на отличном ответе от piRSquared, я искал ответ:

df1 = (df1[['path']]
       .merge(df2, 'left')
       .set_index(df1.index)
       .fillna(df1))
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...