Question

Здравствуйте, как я могу сделать только те строки, где val отличается в 2-х фреймах данных.Обратите внимание, что у меня может быть id1 или id2 или оба, как показано ниже.

d2 = {'id1': ['X22', 'X13',np.nan,'X02','X14'],'id2': ['Y1','Y2','Y3','Y4',np.nan],'VAL1':[1,0,2,3,0]}
F1 = pd.DataFrame(data=d2)
d2 = {'id1': ['X02', 'X13',np.nan,'X22','X14'],'id2': ['Y4','Y2','Y3','Y1','Y22'],'VAL2':[1,0,4,3,1]}
F2 = pd.DataFrame(data=d2)

Ожидаемый вывод

d2 = {'id1': ['X02',np.nan,'X22','X14'],'id2': ['Y4','Y3','Y1',np.nan],'VAL1':[3,2,1,0],'VAL2':[1,4,3,1]}

F3 = pd.DataFrame (data = d2)

jezrael · Answer 1 · 07 июня 2019

Сначала объедините все столбцы с параметрами left_on и right_on, затем отфильтруйте both строки и удалите пропущенные значения путем изменения формы на stack с unstack:

df=pd.merge(F1, F2, left_on=['id1','id2','VAL2'], 
                    right_on=['id1','id2','VAL1'], how="outer", indicator=True)

df=(df[df['_merge'] !='both']
        .set_index(['id1','id2'])
        .drop('_merge', 1)
        .stack()
        .unstack()
        .reset_index())

print (df)
   id1 id2 VAL2 VAL1
0  X02  Y4    3    1
1  X22  Y1    1    3

получить отдельные столбцы данных

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

получить отдельные столбцы данных

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы