Мне интересно, какой самый экономичный способ объединения информации из нескольких информационных фреймов в один новый основан на сопоставлении идентификатора.
У каждого df есть столбец "member_id", и у каждой строки свой идентификатор участника. Я хочу закончить с одним df, который имеет один столбец member_id и счет от каждого из других df в других столбцах.
Поэтому мне нужна переменная для хранения идентификатора участника, циклически проходить по каждой строке и поднимать необходимые столбцы. Затем все соответствующие оценки должны быть помещены в соответствующую строку, связанную с правильным идентификатором участника.
Я не уверен, что это лучший способ решить проблему? В какой момент имеет смысл сопоставление идентификатора участника? Рано или поздно?
Входные данные и ожидаемые результаты:
### three datasets
d1 = {'part_id': ['PartID_1234', 'PartID_5678'], 'col2': [1, 2]}
df1 = pd.DataFrame(data=d1)
d2 = {'part_id': ['PartID_1234', 'PartID_5678'], 'col2': [3, 4]}
df2 = pd.DataFrame(data=d2)
d3 = {'part_id': ['PartID_5678', 'PartID_1234'], 'col2': [5, 6]}
df3 = pd.DataFrame(data=d3)
### aggregated dataset based on ID
import numpy as np
result = pd.DataFrame(np.array([['PartID_1234', 1, 3, 6], ['PartID_5678', 2, 4, 5]]))