Поиск значений, когда имена столбцов двух информационных фреймов совпадают - PullRequest
0 голосов
/ 10 июня 2018

Я хотел бы написать функцию, которая обновляет значения df1, когда имена столбцов df1 и df2 совпадают друг с другом.

Например: df1:

    Name | Graduated | Employed | Married
    AAA       1           2         3
    BBB       0           1         2 
    CCC       1           0         1

df2:

    Answer_Code | Graduated | Employed | Married
       0                No         No        No
       1                Yes       Intern    Engaged
       2                N/A        PT        Yes
       3                N/A        FT      Divorced 

Конечный результат: df3:

     Name | Graduated |   Employed   |  Married
     AAA       Yes          PT         Divorced
     BBB       No           Intern     Yes 
     CCC       Yes          No         NO

Я хотел бы написать кодкак то так:

     IF d1.columns = d2.columns THEN 

     df1.column.update(df1.column.map(df2.set_index('Answer_Code').column))

Ответы [ 2 ]

0 голосов
/ 10 июня 2018

Один метод заключается в использовании pd.DataFrame.lookup:

df1 = pd.DataFrame({'Name': ['AAA', 'BBB', 'CCC'],
                    'Graduated': [1, 0, 1],
                    'Employed': [2, 1, 0],
                    'Married': [3, 2, 1]})

df2 = pd.DataFrame({'Answer_Code': [0, 1, 2, 3],
                    'Graduated': ['No', 'Yes', np.nan, np.nan],
                    'Employed': ['No', 'Intern', 'PT', 'FT'],
                    'Married': ['No', 'Engaged', 'Yes', 'Divorced']})

# perform lookup on df2 using row & column labels from df1
arr = df2.set_index('Answer_Code')\
         .lookup(df1.iloc[:, 1:].values.flatten(),
                 df1.columns[1:].tolist()*3)\
         .reshape(3, -1)

# copy df1 and allocate values from arr
df3 = df1.copy()
df3.iloc[:, 1:] = arr

print(df3)

  Name Graduated Employed    Married
0  AAA       Yes       PT   Divorced
1  BBB        No   Intern        Yes
2  CCC       Yes       No    Engaged
0 голосов
/ 10 июня 2018

Вы можете использовать map.

Пример:

df1.Graduated.map(df2.Graduated)

доходность

0    Yes
1     No
2    Yes

Таким образом, просто сделайте это для каждого столбца, как показано ниже

for col in df1.columns:
    if col in df2.columns:
        df1[col] = df1[col].map(df2[col])

Не забудьте сначала установить индекс для кода ответа, например, df2 = df2.set_index("Answer_Code"), если необходимо.

...