Панды сбрасывают дубликаты в CSV - PullRequest
0 голосов
/ 20 сентября 2018

У меня есть два CSV.Они содержат одинаковые столбцы и данные.К одному CSV добавлены дополнительные записи.

Я хочу иметь 1 CSV, содержащий новые дополнительные записи, и удалить все дублирующиеся записи.

У меня есть:

import pandas as pd

rows = pd.read_csv('/home/test/Documents/rows.csv')
rowsadded = pd.read_csv('/home/test/Documents/rowsadded.csv')

joined = rows.append(rowsadded)
reduce = joined.drop_duplicates(subset=None, keep=False, inplace=False)
reduce.to_csv('/home/test/Documents/results.csv')

Когда я устанавливаю Keep = False, все записи удаляются, и сохраняются только имена столбцов.

У всех есть советы по удалениюповторяющиеся записи после того, как я добавил CSV-файлы?

ОБНОВЛЕНИЕ - Изменяя код следующим образом, добавляем новые строки из CSV-строки с добавленной строкой в ​​строки:

reduce = joined.drop_duplicates(keep=False, inplace=True)

Что я делаю не так - я хочу удалить дубликаты, сохранить только новые строки и записать эту информацию в новый CSV?

1 Ответ

0 голосов
/ 20 сентября 2018

Попробуйте все за один раз

pd.concat([df1,df2]).drop_duplicates(keep=False)
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...