Я новичок в пандах и был бы признателен за помощь. Прочитайте документацию, но не можете найти решение ...
Я создал pd.Series (используя groupby и применяя два параметра). Есть несколько тысяч индексов, каждый с набором кодов (param_b). Я пытаюсь удалить коды, которые встречаются в нескольких индексах.
Я пытался drop_duplicates
, но ничего не сделал ...
families = file.groupby("param_a")["param_b"].apply(set)
new_families = families.drop_duplicates()
an example, I have these three lines:
A {5iv5, 5iv7}
B {5hx2, 2fl8, 2fl9, 5iv5, 5iv7, 2fkk}
C {4lq8}
I want to remove the entries that appear in A and B (5iv5, 5iv7)
Я использовал apply(set)
для удалениядубликаты в пределах param_b
, и это сработало, но мне нужно также удалить дубликаты в разных индексах.
Спасибо !!