Question

У меня есть два CSV.Они содержат одинаковые столбцы и данные.К одному CSV добавлены дополнительные записи.

Я хочу иметь 1 CSV, содержащий новые дополнительные записи, и удалить все дублирующиеся записи.

У меня есть:

import pandas as pd

rows = pd.read_csv('/home/test/Documents/rows.csv')
rowsadded = pd.read_csv('/home/test/Documents/rowsadded.csv')

joined = rows.append(rowsadded)
reduce = joined.drop_duplicates(subset=None, keep=False, inplace=False)
reduce.to_csv('/home/test/Documents/results.csv')

Когда я устанавливаю Keep = False, все записи удаляются, и сохраняются только имена столбцов.

У всех есть советы по удалениюповторяющиеся записи после того, как я добавил CSV-файлы?

ОБНОВЛЕНИЕ - Изменяя код следующим образом, добавляем новые строки из CSV-строки с добавленной строкой в строки:

reduce = joined.drop_duplicates(keep=False, inplace=True)

Что я делаю не так - я хочу удалить дубликаты, сохранить только новые строки и записать эту информацию в новый CSV?

JoshuaBox · Answer 1 · 20 сентября 2018

Попробуйте все за один раз

pd.concat([df1,df2]).drop_duplicates(keep=False)

Панды сбрасывают дубликаты в CSV

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Панды сбрасывают дубликаты в CSV

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов