У меня есть два CSV-файла с общим столбцом с именем «Имя». Файл 2 будет постоянно обновляться и добавлять новые значения случайным образом в столбце. Как я могу написать скрипт для сравнения двух столбцов и найти различия, независимо от того, где новые значения помещены в файл 2.
Другие решения найдут различия только в том случае, если новые значения находятся в конце столбца не случайно в столбце.
Код, который я пробовал (выводит только новые значения внизу столбца, а не когда он находится в столбце случайным образом):
df1 = pd.read_csv('file1.csv')
df2 = pd.read_csv('file2.csv')
new_df = (df1[['Name']].merge(df2[['Name']],on='Name',how = 'outer',indicator = True)
.query("_merge != 'both'")
.drop('_merge',axis = 1))
new_df.to_csv('file4.csv')
File1 :
Name
gfd454
3v4fd
th678iy
Файл2:
Name
gfd454
fght45
3v4fd
th678iy
Выходные данные должны быть:
Name
fght45