У меня есть два csv-фрейма данных, и я пытаюсь найти уникальные идентификаторы входа, которые не содержатся в двух фреймах. Проблема, с которой я сталкиваюсь, заключается в том, что следующий код выполняется, но df3 возвращает все строки и столбцы из df1. Я подозреваю, что есть проблема с одной из строк в df1, но здесь мне нужна ваша помощь, чтобы выяснить, что может быть причиной этого.
Есть около 24000 строк в df1 и около 8500 в df2. Когда я получаю df3, он возвращает все 24000 строк из df1, что, как я знаю, неверно, поскольку между ними есть общие логины. Обратите внимание, что имена входа в df2 находятся под столбцом «Номер пользователя». Мой код ниже:
import pandas as pd
import numpy as np
import csv
fileLocationDf1 = "corpscore.csv"
fileLocationDf2 = "ENFI.csv"
createDf1 = pd.read_csv(fileLocationDf1)
createDf2 = pd.read_csv(fileLocationDf2, low_memory = False)
df3 = createDf1[~createDf1['login'].isin(createDf2['User Number'])]
df3.to_excel('Results.xlsx', sheet_name = 'Results')