Итак, я знаю, что вы можете использовать что-то вроде этого для удаления дублирующих строк:
the_data.drop_duplicates(subset=['the_key'])
Однако, если the_key
равно нулю для некоторых значений, как показано ниже:
the_key C D
1 NaN * *
2 NaN *
3 111 * *
4 111
Он сохранит те, которые отмечены в столбце C
. Можно ли заставить drop_duplicates
обрабатывать все nan
как отдельные и получать выходные данные, сохраняя данные, как в столбце D
?