Использование Pandas для удаления дубликатов и сопоставления элементов строки 2 CSV-файлов - PullRequest
0 голосов
/ 03 февраля 2020

Я пытаюсь сравнить два CSV-файла. Один CSV-файл имеет дополнительные (уникальные) записи. Я хочу, чтобы идентификаторы видео CSV точно совпадали в обоих файлах CSV. Есть ли какая-либо функция / способ установить файлы CSV друг на друга и удалить строки файла CSV с дополнительными записями, пока они не будут идентичны другим файлам CSV?

import pandas as pd 

import numpy as np

#What I have so far, need to compare a df1 with df2

df2 = pd.read_excel('CompareTo.xlsx")
df = pd.read_excel('ChTest.xlsx')

df = df.sort_values(by = ['videoID'] , ascending = True)

df = df.drop_duplicates(subset='videoID', keep="first")

print(df)

df = df.to_excel(r'C:\Users\alant\Desktop\ChTest.xlsx', index = None, header=True)

1 Ответ

0 голосов
/ 03 февраля 2020

Если вы пытаетесь найти идентификаторы видео, общие для обоих:

new_df = pd.merge(df, df2, how='inner', on=['videoID'])
...