Я могу удалить повторяющиеся строки, используя панд,
df.drop_duplicates(subset=['issuer_id', 'hios_plan_identifier', 'group_or_individual_plan_type'])
.
Насколько я знаю, он удаляет все дубликаты, сохраняя первое вхождение, которое является функциональностью по умолчанию.
Мое требование заключается в том, чтобы я хотел сохранить отброшенные данные в другом кадре данных, проверяя подмножества столбцов.
У меня есть мой фрейм данных df
,
issuer_id hios_plan_identifier plan_year group_or_individual_plan_type
0 484 99806CAAUSJ-TMP 2018 Group
1 484 99806CAAUSJ-TMP 2018 Group
2 484 99806CAAUSJ-TMP 2018 Group
3 484 99806CAAUSJ-TMP 2018 Group
Я хочу удалить дубликаты из df
(будет только 1 строка) и сохранить остаток в другом фрейме данных df1
(будет 3 строки).