Я хотел бы сравнить 2 фрейма данных и вытащить записи, основанные на условиях ниже 3.
- Если запись совпадает, то «SAME» должно появиться в новом столбце FLAG,
- Если запись не совпадает, если она из df1 (предположим, № 66), в столбце FLAG должно появиться «DF1».
- Если запись не совпадает, если она из df2 (предположим, № 77), в столбце FLAG должно появиться «DF2».Здесь всю ЗАПИСЬ нужно рассмотреть и проверить.Мудрое сравнение.
Также мне нужно проверить, как это, для миллионов записей с использованием кода PySpark.
df1:
No,Name,Sal,Address,Dept,Join_Date
11,Sam,1000,ind,IT,2/11/2019
22,Tom,2000,usa,HR,2/11/2019
33,Kom,3500,uk,IT,2/11/2019
44,Nom,4000,can,HR,2/11/2019
55,Vom,5000,mex,IT,2/11/2019
66,XYZ,5000,mex,IT,2/11/2019
df2:
No,Name,Sal,Address,Dept,Join_Date
11,Sam,1000,ind,IT,2/11/2019
22,Tom,2000,usa,HR,2/11/2019
33,Kom,3000,uk,IT,2/11/2019
44,Nom,4000,can,HR,2/11/2019
55,Xom,5000,mex,IT,2/11/2019
77,XYZ,5000,mex,IT,2/11/2019
Ожидаемый вывод:
No,Name,Sal,Address,Dept,Join_Date,FLAG
11,Sam,1000,ind,IT,2/11/2019,SAME
22,Tom,2000,usa,HR,2/11/2019,SAME
33,Kom,3500,uk,IT,2/11/2019,DF1
33,Kom,3000,uk,IT,2/11/2019,DF2
44,Nom,4000,can,HR,2/11/2019,SAME
55,Vom,5000,mex,IT,2/11/2019,DF1
55,Xom,5000,mex,IT,2/11/2019,DF2
66,XYZ,5000,mex,IT,2/11/2019,DF1
77,XYZ,5000,mex,IT,2/11/2019,DF2
Я загрузил входные данные, как показано ниже, но не понял, как поступить.
df1 = pd.read_csv("D:\\inputs\\file1.csv")
df2 = pd.read_csv("D:\\inputs\\file2.csv")
Любая помощь приветствуется.Спасибо.