У меня есть два CSV.Они содержат одинаковые столбцы и данные.К одному CSV добавлены дополнительные записи.
Я хочу иметь 1 CSV, содержащий новые дополнительные записи, и удалить все дублирующиеся записи.
У меня есть:
import pandas as pd
rows = pd.read_csv('/home/test/Documents/rows.csv')
rowsadded = pd.read_csv('/home/test/Documents/rowsadded.csv')
joined = rows.append(rowsadded)
reduce = joined.drop_duplicates(subset=None, keep=False, inplace=False)
reduce.to_csv('/home/test/Documents/results.csv')
Когда я устанавливаю Keep = False, все записи удаляются, и сохраняются только имена столбцов.
У всех есть советы по удалениюповторяющиеся записи после того, как я добавил CSV-файлы?
ОБНОВЛЕНИЕ - Изменяя код следующим образом, добавляем новые строки из CSV-строки с добавленной строкой в строки:
reduce = joined.drop_duplicates(keep=False, inplace=True)
Что я делаю не так - я хочу удалить дубликаты, сохранить только новые строки и записать эту информацию в новый CSV?