errati c поведение с df.merge pandas - PullRequest
0 голосов
/ 26 мая 2020

Я хочу сохранить строки из обоих фреймов данных, которые я объединяю, а затем удалить дубликаты (сохраняя первую запись)

написал следующий код:

dfSPP0 = dfSPP0.merge(dfCQP0, how = 'outer')
dfSPP0 = dfSPP0.drop_duplicates(subset=['Application_Number', 'PA'], keep='first')

В процессе Проверяя свою работу, я заметил, что не все идентичные записи объединяются (см. первые две строки и строки 5 и 6). Вы видите все столбцы в обоих фреймах данных.

Судя по тому, что я прочитал, я также не ожидал, что какие-либо повторяющиеся записи будут удалены.

Неправильно написан мой код, что приводит к ошибочному поведению c? Если не мысли о том, почему это происходит. спасибо

records in both dataframes

1 Ответ

1 голос
/ 26 мая 2020

Извините, у меня недостаточно репутации, чтобы комментировать.

Думаю, вам следует указать имена столбцов или уровней индекса, к которым нужно присоединиться? Если on (или right_on, left_on) равно None и не объединяется по индексам, то по умолчанию используется пересечение столбцов в обоих DataFrames. Для получения дополнительной информации щелкните документация .

...