Итак, у меня есть два файла, один из которых содержит 6 миллионов записей, а другой - около 5 миллионов записей. Я хочу сравнить конкретные значения столбца в обоих кадрах данных. Это код, который я использовал:
print(df1['Col1'].isin(df2['col3']).value_counts())
Это важно для меня, так как я хочу видеть количество Истинных (одинаковых) и Ложных (разных). Я получаю большинство записей около 95% как истинные, однако некоторые 5% данных поступают как ложные. Я извлек эти данные с помощью to_csv и сравнил столбцы с помощью vimdiff, и все они идентичны, тогда почему код помечает их как ложные (разные)? Есть ли лучший и более надежный метод?
Примечание. Я также проверил наличие пробелов в столбцах. Пробелов нет.
PS. В документации Pandas.isin указано, что индекс и значение должны совпадать. Поскольку у меня есть больше записей в 1 файле, поэтому индекс не соответствует этим записям, как удалить это ограничение?